Hadoopチュートリアル・シリーズ II: 8. Sqoop2でHadoopからデータを転送する方法

Published on 08 November 2013 in Full tutorial / Sqoop / Tutorial / Video - 2 minutes read

原文)間違いを見つけた場合はご指摘下さい

Apache Sqoopは、Hadoopと(ファイルやデータベースにある)データを受け渡しを行うのに素晴らしいツールです。Hue 3ではSqoop2を簡単に使用するための新しいアプリが追加されています。

 

Hadoopチュートリアルシリーズ・シーズン2での最後のエピソードは(以前はSearchについてでした)、Yelpの結果をMySqlのテーブルにエクスポートすることが、いかに簡単になっているかをご覧に入れましょう。

 

 

Sqoop2は、現在Comma Separated Values(CSV)ファイルのみが使えます。 Pig scriptPig Editorを用いて私たちのデータ分析をこのフォーマットで保存しましょう。

 

続いてビデオで詳細をご覧いただいたように、エクスポートジョブを指定して、前のPigジョブの出力を入力パスに設定します。データはHDFS内ににあり、パスは一つのファイルかディレクトリかのいずれかが可能です

 

前にこのSQL スクリプトで、MySqlの’stats’テーブルを作成しました。このテーブルにはエクスポートされたデータが保存されることになります。

 

これはジョブのプロパティです。これらは以前のSqoop Appブログポストで詳細を説明しています。

 

Table name: yelp_cool_test
Input directory: /user/hdfs/test_sqoop
Connector: mysql
JDBC Driver Class : com.mysql.jdbc.Driver
JDBC Connection String: jdbc:mysql://hue.com/test

 

続いて’Save & Excute’をクリックします。さぁ、これでデータはMySqlで利用可能になっています!

 

mysql> select * from yelp_cool_test limit 2;
+------+------+------+------+
| a    | b    | c    | d    |
+------+------+------+------+
|    1 |    2 |    3 |    4 |
|    2 |    3 |    4 |    5 |
+------+------+------+------+
2 rows in set (0.00 sec)

 

HiveやHBaseに格納されたデータは、まだSqoop2ではネイティブで使用することはできません。(効率は悪いですが)現在のワークアラウンドはHiveあるいはPigでデータをHDFSのディレクトリにダンプし、それから類似のSqoopエクスポートを行うようになるでしょう。

 

いつものように、ご質問やフィードバックがあれば、hue-user や @gethue.comまでお気軽にお尋ね下さい!

シーズン2をご覧いただきありがとうございました。ダイヤルはそのまま、シーズン3はもうすぐです!


comments powered by Disqus

More recent stories

10 June 2021
Hue4.10(新しいSQLエディタコンポーネント、REST API、小さなファイルのインポート、Slackアプリなど)がリリースされました!
Read More
29 May 2021
Sqlスクラッチパッドコンポーネントとパブリック REST API を使用して、5 分で独自の SQL エディター (BYOE) を構築する
Read More
26 May 2021
改善されたHueのImporter -- ファイルの選択、方言の選択、テーブルの作成
Read More