10分でHadoopクラスタを作成するには?

Published on 23 April 2014 in Enterprise / Tutorial / Video - 4 minutes read

私たちは、最近、1クリックで実際のHadoopクラスタを試すことができるdemo.cloudera.comを開始しました。下記は私たちがそれをどのように行ったかについて書いたものです。

始める前に、あなたは何台かのマシンを入手する必要があります。Hadoopはコモディティハードウェアで実行されるので、メジャーなLinuxディストリビューションが動く普通のコンピュータで動作するはずです。デモを続けるために、Amazon Cloud Computing Serviceをちょっと見てみましょう。既にサーバーを1〜2台に持っている、あるいはローカルのLinuxマシンでHadoopを実行することなど気にしない場合は、そのままマシンのセットアップを行って下さい!

これは、クラスタをブートし、データの演算を始めるのがいかに簡単であることかを示しているデモンストレーションビデオです!

マシンのセットアップ

私たちは AWS を選んで、OSにはUbuntu 12.04、100GBのストレージを持つ4つのm3.large インスタンスを開始しました(デフォルトの8GBではなく)。低いパフォーマンスで良い場合は、一つのxlargeインスタンスで十分であり、またはさらに小さなインスタンスに少ないサービスをインストールすることができます。

続いて以下のようにセキュリティグループを設定します。私たちはインスタンス間で全てを許可し(複数のマシンのクラスタであることを忘れないで下さい!)、外部にCloudera ManagerとHueのポートを解放しました。

  <td>
    <p dir="ltr">
      TCP
    </p>
  </td>

  <td>
    <p dir="ltr">
      0 &#8211; 65535
    </p>
  </td>

  <td>
    <p dir="ltr">
      sg-e2db7777 (hue-demo)
    </p>
  </td>
</tr>

<tr>
  <td>
    <p dir="ltr">
      SSH
    </p>
  </td>

  <td>
    <p dir="ltr">
      TCP
    </p>
  </td>

  <td>
    <p dir="ltr">
      22
    </p>
  </td>

  <td>
    <p dir="ltr">
      0.0.0.0/0
    </p>
  </td>
</tr>

<tr>
  <td>
    <p dir="ltr">
      Custom TCP Rule
    </p>
  </td>

  <td>
    <p dir="ltr">
      TCP
    </p>
  </td>

  <td>
    <p dir="ltr">
      7180
    </p>
  </td>

  <td>
    <p dir="ltr">
      0.0.0.0/0
    </p>
  </td>
</tr>

<tr>
  <td>
    <p dir="ltr">
      Custom TCP Rule
    </p>
  </td>

  <td>
    <p dir="ltr">
      TCP
    </p>
  </td>

  <td>
    <p dir="ltr">
      8888
    </p>
  </td>

  <td>
    <p dir="ltr">
      0.0.0.0/0
    </p>
  </td>
</tr>

<tr>
  <td>
    <p dir="ltr">
      Custom ICMP Rule
    </p>
  </td>

  <td>
    <p dir="ltr">
      Echo Reply
    </p>
  </td>

  <td>
    <p dir="ltr">
      N/A
    </p>
  </td>

  <td>
    <p dir="ltr">
      0.0.0.0/0
    </p>
  </td>
</tr>

All TCP

Hadoopのセットアップ

この時点で私たちは既に複数のマシンを手にしているので、Hadoopをインストールしましょう。私たちは全てのインストールにCloudera Managerを使用して、このガイド(英語)に従いました。さらには、インストール後のモニタリングと設定も、管理インタフェースにより簡易化されています。

最初にマシンの一つに接続することから始めます:

ssh -i ~/demo.pem [email protected]

Cloudera Managerを取得して開始します:

wget http://archive.cloudera.com/cm5/installer/latest/cloudera-manager-installer.bin
chmod +x ./cloudera-manager.bin
sudo ./cloudera-manager.bin

デフォルトの資格である admin/admin でログインします。

その後、インストールウィザードであなたのマシンの全てのパブリック DNS IP(例: ec2-11-222-333-444.compute-1.amazonaws.com) を入力し、Go!をクリックします。おめでとうございます。あなたのために、Cloudera Managerがクラスタ全体を自動的にセットアップしてくれるでしょう!

dynamic IPをHueのマシンに割り当ててそのIPアドレスのポート番号8888にアクセスします。完全に機能しているHadoop クラスタでチュートリアル(英語)サンプル(英語)を始めましょう!

いつものように、hue-user メーリングリスト、または @gethueまでお気軽にコメントして下さい!

注意

あなたが複数のマシンを持っている場合、メモリ/CPUの使用量が均一になるようにサービスを異動することを推奨します。例えば、HBase、Oozie、Hive、Solrを異なるホストに分けるようにします。

注意

YARNでいくつかのMapReduceジョブを実行する際、全てのジョブがACCEPTEDあるいはREADYステータスでデッドロックする場合、YARNのバグにヒットしているかもしれません。

回避方法は、2〜3ぐらいの少ない数の動的リソース管理プール(Dynamic Resource manager Pool)を使用することです。 CM → Clusters → Other → Dynamic Resource Pools → Configuration → Edit → YARNに異動し、‘Max Running Apps’ を2に設定します。

cm-yarn-pool

同様に、yarn.nodemanager.resource.memory-mbとタスクのメモリを減らし、yarn.app.mapreduce.am.resource.mbを増やしてみることもできます。


comments powered by Disqus

More recent stories

10 June 2021
Hue4.10(新しいSQLエディタコンポーネント、REST API、小さなファイルのインポート、Slackアプリなど)がリリースされました!
Read More
29 May 2021
Sqlスクラッチパッドコンポーネントとパブリック REST API を使用して、5 分で独自の SQL エディター (BYOE) を構築する
Read More
26 May 2021
改善されたHueのImporter -- ファイルの選択、方言の選択、テーブルの作成
Read More