Hadoopチュートリアル・シリーズ II: 8. Sqoop2でHadoopからデータを転送する方法

Published on 08 November 2013 in Full tutorial / Sqoop / Tutorial / Video - 2 minutes read

（原文）間違いを見つけた場合はご指摘下さい

Apache Sqoopは、Hadoopと（ファイルやデータベースにある）データを受け渡しを行うのに素晴らしいツールです。Hue 3ではSqoop2を簡単に使用するための新しいアプリが追加されています。

Hadoopチュートリアルシリーズ・シーズン2での最後のエピソードは（以前はSearchについてでした)、Yelpの結果をMySqlのテーブルにエクスポートすることが、いかに簡単になっているかをご覧に入れましょう。

Sqoop2は、現在Comma Separated Values(CSV)ファイルのみが使えます。 Pig scriptをPig Editorを用いて私たちのデータ分析をこのフォーマットで保存しましょう。

続いてビデオで詳細をご覧いただいたように、エクスポートジョブを指定して、前のPigジョブの出力を入力パスに設定します。データはHDFS内ににあり、パスは一つのファイルかディレクトリかのいずれかが可能です

前にこのSQL スクリプトで、MySqlの’stats’テーブルを作成しました。このテーブルにはエクスポートされたデータが保存されることになります。

これはジョブのプロパティです。これらは以前のSqoop Appブログポストで詳細を説明しています。

Table name: yelp_cool_test
Input directory: /user/hdfs/test_sqoop
Connector: mysql
JDBC Driver Class : com.mysql.jdbc.Driver
JDBC Connection String: jdbc:mysql://hue.com/test

続いて’Save & Excute’をクリックします。さぁ、これでデータはMySqlで利用可能になっています！

mysql> select * from yelp_cool_test limit 2;
+------+------+------+------+
| a    | b    | c    | d    |
+------+------+------+------+
|    1 |    2 |    3 |    4 |
|    2 |    3 |    4 |    5 |
+------+------+------+------+
2 rows in set (0.00 sec)

HiveやHBaseに格納されたデータは、まだSqoop2ではネイティブで使用することはできません。（効率は悪いですが）現在のワークアラウンドはHiveあるいはPigでデータをHDFSのディレクトリにダンプし、それから類似のSqoopエクスポートを行うようになるでしょう。

いつものように、ご質問やフィードバックがあれば、hue -user や @gethue.comまでお気軽にお尋ね下さい！

シーズン2をご覧いただきありがとうございました。ダイヤルはそのまま、シーズン3はもうすぐです！

Share on Facebook Share on Twitter

Hadoopチュートリアル・シリーズ II: 8. Sqoop2でHadoopからデータを転送する方法

More recent stories

Hue4.10（新しいSQLエディタコンポーネント、REST API、小さなファイルのインポート、Slackアプリなど）がリリースされました！

Sqlスクラッチパッドコンポーネントとパブリック REST API を使用して、5 分で独自の SQL エディター (BYOE) を構築する

改善されたHueのImporter -- ファイルの選択、方言の選択、テーブルの作成