トレジャーデータ(Treasure Data)ブログ

トレジャーデータ(Treasure Data)ブログです。

本サイトは移転しました。新サイトにリダイレクトします。

トレジャーデータが生きるベストフィットケース7: 2. 現場から「即答」を求められる

本記事は移転しました。新サイトにリダイレクトします。

トレジャーデータはクラウドでデータマネージメントサービスを提供しています。

 

トレジャーデータが生きるベストフィットケースを7つ紹介します。

2. 現場から「即答」を求められる

データドリブンな組織では、デイリーのデータ分析レポートをベースに日々のディスカッションが行われています。

分析を担うあなたは、データに基づいた客観的かつ論理的な情報を提供し、マネージャーの経験や勘を最大限発揮できるように尽力していると思います。

そんななか、いままで出していなかった、よりピンポイントな分析結果を「その場で」求められることが多々あることは容易に想像できます。

Treasure Data Serviceは、チームからの「アドホック」な要請に即答するための機能をもっており、「ノンストップ」のデータドリブン組織を作り上げることが可能です。

バッチクエリーとアドホッククエリーを理解する

バッチ処理

「アドホック処理」の対義語になるのが「バッチ処理」です。特定のインターバルでジョブが実行され、時間内に終われば問題のない処理となります。

バッチ処理は、巨大で複雑なデータセットに対する大がかりな処理であることが多いです。たとえば、デイリーの定型レポート処理や帳簿処理は、バッチ処理によって翌日朝までに処理されています。

バッチ処理は、データ同士の結合をする場合(中間生成データが巨大になる)、巨大なデータセットに対する重い集計の際に頼もしい存在です。

また、分散処理の途中でのエラーに対するリトライを行ったり、計算ノード間の中間データの受け渡しも安全に行ってくれます。

そのような安定性は、デイリーで自動実行する定時ジョブへの安心感につながります。

バッチ処理のイメージ:

たくさんのショベルカーのある巨大な砂場を想像してください。重めのクエリーが実行されると、複数のショベルカーのエンジンに火が入り、自分の持ち場の砂をどっさりとつかんでは次の砂場に運んでいきます。重厚なマシンなのでエンジンがかかる(イニシャルランニングタイム)までに時間が必要ですが、動き出してしまえばどんな砂場であっても安定して働いてくれます。

アドホック処理

一方で、アドホック処理は、中間データと結果がサーバーのメモリに乗り切る程度の軽い処理に対して数秒のレスポンスを実現します。

巨大なデータセットに対するアドホッククエリーの登場は、すぐに結果を見たいアドホックな分析処理や、そもそも結果が正しいかどうかを知るための試行錯誤など、現場から求められるアドホックな業務をこなすのに適しています。

アドホック処理のイメージ:

広大なサーキットを縦横無尽に走り回るミニ四駆を想像してください。重いものは載せられませんが、スイッチを入れればすぐに走り出す起動速度とデータサーキットを超高速に駆け抜ける爽快さは、分析者にとって最高の相棒となるでしょう。

また、TableauなどのBI(ビジネスインテリジェンス)ツールとトレジャーデータストレージをアドホッククエリーで接続することによって、BIツール上からドリルダウンやクロステーブル作成などのインタラクティブな操作が可能になります。これは非常にインパクトのあることで、SQLの知識がない分析者やディレクターでも、BIツールからマウスのクリック・ドラッグ操作だけでTreasure Data Serviceが扱えるようになります。

f:id:treasure-data:20150220104229p:plain

即座にデータにアクセスし、即座に集計する、それが管理コンソールで完結する

Treasure Data Serviceの管理コンソールは、データの収集から分析までをそこで完結することのできる非常にスマートな機能です。

まずはこのデモを見てください。途中でクエリーを実行するところで、同じ処理をアドホッククエリーとバッチクエリーで行っています。両者のレスポンスの違いが明確です。

管理コンソールからできることを順番に見ていきましょう。

1. Collect Data

Treasure Data Serviceには4種のデータ収集方法があり、管理コンソールからその手法を参照することが可能です。

f:id:treasure-data:20150220104710p:plain

この中でいちばん手軽なのは「File Upload」で、手元のcsvファイルをコンソールから簡単にアップロードできます。

f:id:treasure-data:20150220104752p:plain

アップロードされたcsvファイルはヘッダーとその型が認識され、さまざまなdatetimeフォーマットをタイムスタンプに変換します。

f:id:treasure-data:20150220105717p:plain

2. Databases

実際にどんなデータがどこに入っているのかは、「Databases」から確認ができます。分析を始める前に、データを「眺める」ことは非常に重要です。

f:id:treasure-data:20150220105826p:plain

3. New Query

コンソール上のクエリーエディタは、格段に進歩しました。

f:id:treasure-data:20150220105925p:plain

現在のバージョンでは、以下の便利な機能をもっています:

  • データベース、テーブル、カラムの参照:エディタ上から対象となるカラムを簡単に選択できます。
  • シンタックスエラーハイライト:クエリーのシンタックスに間違いがあれば、その場でエラーを指摘してくれます。
  • クエリーの保存・読み込み:過去に保存したり実行したクエリーを簡単に読み込めます。

4. Queries

定期的に同じクエリーを実行する場合、この機能によってクエリーを保存することが可能です。SQL文と同時に、以下の機能の保存が可能です。

  • DATABASE:どのDBへ実行するのか。 
  • TYPE:バッチ型、アドホック型の選択。
  • SCHEDULE:どのインターバルで実行するのか、cron ライクな設定が可能。
  • LAST JOB:そのクエリーで最後に実行されたジョブ。

5. Jobs

実行されたジョブの状況を簡単に閲覧することが可能です。

f:id:treasure-data:20150220110301p:plain

実行中のジョブにアクセスすると、現在の処理の進捗がリアルタイムに更新されていきます。

f:id:treasure-data:20150220110400p:plain

また、成功済みのジョブに対しては、その履歴とともに結果データのダウンロードが可能です。

f:id:treasure-data:20150220110446p:plain