(原文)間違いを見つけた場合はご指摘下さい
Apache Sqoopは、Hadoopと(ファイルやデータベースにある)データを受け渡しを行うのに素晴らしいツールです。Hue 3ではSqoop2を簡単に使用するための新しいアプリが追加されています。
Hadoopチュートリアルシリーズ・シーズン2での最後のエピソードは(以前はSearchについてでした)、Yelpの結果をMySqlのテーブルにエクスポートすることが、いかに簡単になっているかをご覧に入れましょう。
Sqoop2は、現在Comma Separated Values(CSV)ファイルのみが使えます。 Pig scriptをPig Editorを用いて私たちのデータ分析をこのフォーマットで保存しましょう。
続いてビデオで詳細をご覧いただいたように、エクスポートジョブを指定して、前のPigジョブの出力を入力パスに設定します。データはHDFS内ににあり、パスは一つのファイルかディレクトリかのいずれかが可能です
前にこのSQL スクリプトで、MySqlの’stats’テーブルを作成しました。このテーブルにはエクスポートされたデータが保存されることになります。
これはジョブのプロパティです。これらは以前のSqoop Appブログポストで詳細を説明しています。
Table name: yelp_cool_test Input directory: /user/hdfs/test_sqoop Connector: mysql JDBC Driver Class : com.mysql.jdbc.Driver JDBC Connection String: jdbc:mysql://hue.com/test
続いて’Save & Excute’をクリックします。さぁ、これでデータはMySqlで利用可能になっています!
mysql> select * from yelp_cool_test limit 2; +------+------+------+------+ | a | b | c | d | +------+------+------+------+ | 1 | 2 | 3 | 4 | | 2 | 3 | 4 | 5 | +------+------+------+------+ 2 rows in set (0.00 sec)
HiveやHBaseに格納されたデータは、まだSqoop2ではネイティブで使用することはできません。(効率は悪いですが)現在のワークアラウンドはHiveあるいはPigでデータをHDFSのディレクトリにダンプし、それから類似のSqoopエクスポートを行うようになるでしょう。
いつものように、ご質問やフィードバックがあれば、hue-user や @gethue.comまでお気軽にお尋ね下さい!
シーズン2をご覧いただきありがとうございました。ダイヤルはそのまま、シーズン3はもうすぐです!