HadoopとSolrでApacheのログを分析し、独自のウェブ分析ダッシュボードを構築する

Published on 21 June 2014 in Search / Tutorial / Video - 2 minutes read - Last modified on 04 February 2020

Hue (3.6 またはもうすぐ登場するCDH5.1) には、検索用の動的ダッシュボードビルダーが同梱されています。私たちは以前にSearchのエピソードで新しいインタフェースを紹介しました。

これは第2章です!私たちはApacheのログデータをどのようにインデックスし、数回のクリックで同じダッシュボードを再作成する方法を紹介しました。このビデオでは、ライブのHadoopクラスターdemo.gethue.comからの実際のApacheのログを使用しています:

最後までスキップしたい場合、ログファイルは ここから利用できるように準備されています.

How to Proxy Hue (日本語未提供)のブログで説明したように、全てのページビューのApacheのログを取得しています。プロダクションのマシンからログを取得し、それらをクリーンアップし、Solrのスキーマのフィールドに抽出して各ページをgeoローカライズするスクリプトをダウンロードします。

この新しいインデクサライブラリにより、手作業の手順を行うことなく Hueの検索のサンプルをインストールすることができます。次の機能では、クエリ時に自動的なgeoローカライズ、HiveやHBaseのテーブルのインデキシング、Morphline エディタが含まれるようになるでしょう。 (基本的にPython部分を取り除き、GB以上のデータ取得ができるようになるでしょう)

いつものように、フィードバックはhue-userメーリングリストや@gethueまでお気軽に!


comments powered by Disqus

More recent stories

10 June 2021
Hue4.10(新しいSQLエディタコンポーネント、REST API、小さなファイルのインポート、Slackアプリなど)がリリースされました!
Read More
29 May 2021
Sqlスクラッチパッドコンポーネントとパブリック REST API を使用して、5 分で独自の SQL エディター (BYOE) を構築する
Read More
26 May 2021
改善されたHueのImporter -- ファイルの選択、方言の選択、テーブルの作成
Read More