HadoopとSolrでApacheのログを分析し、独自のウェブ分析ダッシュボードを構築する

HadoopとSolrでApacheのログを分析し、独自のウェブ分析ダッシュボードを構築する

Hue (3.6 またはもうすぐ登場するCDH5.1) には、検索用の動的ダッシュボードビルダーが同梱されています。私たちは以前にSearchのエピソードで新しいインタフェースを紹介しました。

これは第2章です!私たちはApacheのログデータをどのようにインデックスし、数回のクリックで同じダッシュボードを再作成する方法を紹介しました。このビデオでは、ライブのHadoopクラスターdemo.gethue.comからの実際のApacheのログを使用しています:

最後までスキップしたい場合、ログファイルは ここから利用できるように準備されています.

How to Proxy Hue (日本語未提供)のブログで説明したように、全てのページビューのApacheのログを取得しています。プロダクションのマシンからログを取得し、それらをクリーンアップし、Solrのスキーマのフィールドに抽出して各ページをgeoローカライズするスクリプトをダウンロードします。

この新しいインデクサライブラリにより、手作業の手順を行うことなく Hueの検索のサンプルをインストールすることができます。次の機能では、クエリ時に自動的なgeoローカライズ、HiveやHBaseのテーブルのインデキシング、Morphline エディタが含まれるようになるでしょう。 (基本的にPython部分を取り除き、GB以上のデータ取得ができるようになるでしょう)

いつものように、フィードバックはhue-userメーリングリストや@gethueまでお気軽に!

0 Comments

Leave a reply

Your email address will not be published. Required fields are marked *

*