トレジャーデータが生きるベストフィットケース7: 1. 何から始めればよいか迷っている
本記事は移転しました。新サイトにリダイレクトします。
トレジャーデータはクラウドでデータマネージメントサービスを提供しています。
トレジャーデータが生きるベストフィットケースを7つ紹介します。
1. 何から始めればよいか迷っている
とりあえず分析と言われたけれど……
近年のデータ分析の盛り上がりを受けて、会社の上司やクライアントから分析ニーズが沸き上がってきて戸惑っているという声を聞くことが多くなってきました。
逆に、能動的にデータ分析を始めようとしても、その理由:「目標」や「仮説」「費用対効果」を求められて頭の痛い思いをしている人もたくさんいるのではないでしょうか?
今回は、これから分析を始めようという人へ、トレジャーデータ流データ分析の始め方をご紹介します。
本ケースにあてはまる人:
- トップダウンでデータ分析指令が振ってきた
- 能動的にデータ分析を始めたいが、理由を求められて着手できない
- そもそもデータの中身を知らない
- 「目標」や「仮説」がそもそもない
一般的なデータ分析プロセス
「目標」「仮説」がない……
実際にデータ分析に関わる多くの人は、分析を始めるに当たって上司や周囲から「目標」や「仮説」を求められることが多いと思います。
「目標」や「仮説」が明確になっているとデータ分析が生かされ、その「確証」(または否定)を元にビジネスプロセスが回っていくと考えられています。
一方、データ分析を始めるにはそれなりのコストと時間がかかるので、ビジネスプロセスをきちんと回していけるのか、または「費用対効果」があるかどうかを分析の前にしっかり説得しなければならない苦労があるのも実際のところでしょう。
しかしながら、実際のところ自社のサービスや製品において「目標」や「仮説」を初めから持っているケースは少なく、現場の分析者はまず「データから仮説や目標を見いだしたい」と思っているはずです。
また、そもそもデータをもっていない、またはデータはあるけど中身を把握していないといった地点からスタートしなければならない分析者もたくさんいることでしょう。
まずは、そのような事情でなかなか分析を始められない人に、トレジャーデータ流の分析アプローチを紹介します。
トレジャーデータ流分析プロセス
トレジャーデータのアプローチは、前述のような前提がなくても着実に分析の歩みを進められるものとなっています。
「目標」「仮説」がなくても……
トレジャーデータが可能にする分析アプローチは、現場の分析者が直面するさまざまな悩みに応えます。目標やデータがないところから一定の成果物を得ることを保証する分析プロセスとなっています。
トレジャーデータが提案するデータ分析アプローチは:
- データ収集をとにかく始めましょう。
- 深く考えずにデータをまず「見る」ことから始めましょう。
この2点に尽きます。
1. データ収集
ともかくデータ収集から始めなければならない人もいると思います。「データ収集」という重い足を進めるために、トレジャーデータは上図のような「何でもよいのでとにかく始めよう」というスタンスを支持しています。
Treasure Data Serviceは、どのような分野のログに対しても対応可能なデータ収集ツールを利用形態に合わせる形で4つ用意しています。
- File Upload:ブラウザ上からcsv/tsvファイルをアップロードする最も簡単な方法。
- Client SDK:JavaScriptおよびiOS、AndroidからSDKを利用してイベント発生時の高頻度でログを送信する方法。
- Streaming Collector:ウェブサーバーのApache Logなど、サーバー自身にエージェントを仕込んでストリーミング的にログを収集する方法。
- Bulk Import:過去数年分の大規模ファイルなどのまとまったログを、効率的にインポートする方法。
Treasure Data Serviceの管理コンソールにログインすると、Treasure Data Collectorsの「Collect Data」タブよりデータ収集ツールにアクセスできます。
収集ツールの詳細は、こちらの記事を参照してください:
「(2014年総集編4)トレジャーデータのデータ収集ツールがより多彩に:IoTやモバイル端末にも対応」
また、まだデータを蓄積できていない状況からのスタートでも、業種に応じたログテンプレートを提供することによって収集のハードルをできるだけ低くするようにしています。
上図のゲームソリューションの例では、ログイン・課金・招待といったユーザーの「アクションログ」を収集することから始めることを提案しています。
単純なログインログだけであっても、実はできることがたくさんあります。こちらの記事もご参照ください(サンプルデータも置いてあります):
「Login(アクセス)ログからわかる12の指標」
2. データを「見る」
ログを入手・扱えるようになったとしても、すぐに分析を始められるわけではありません。
上図のような3つのデータを「見る」プロセスを経ることで、目標設定、仮説設定が初めてできるようになるのです。
(a) 「項目」を見る
どのようなデータが入っているのか、まずは項目を知ることが第一段階となります。
ここでは、項目を知るだけではなく、項目ごとのサンプルを確認して、「ディメンジョン」と「メジャー」のどちらのタイプにあたるのかを識別します。
上図の中古車相場データを元にその分類を見ていきます。
メジャー
メジャーは「中古車価格」や「オドメーター」など、その数値自身が集計の対象となる項目です。これらのメジャーは、セグメントごとに合計、平均、ユニーク数などが求められます。
ディメンジョン
ディメンジョンは「年式」や「メーカー」など、集計時にセグメント軸となるような項目を指します。一般には、非数値型か順序付け不可能な数値型であることが多いです。
もちろん、「中古車価格」のようなメジャーでも、「10〜20万円」「20〜30万円」…というような区間をとれば、その区間をディメンジョンとして扱うことが可能です。
このような例は、後述する「分布」を見る際に必要になります。
(b)「内訳」を見る
(1) 内訳を見るためのクエリーテンプレート
データの中身を把握して「ディメンジョン」「メジャー」に分類すると、テンプレートに当てはめることによってデータの「内訳」を見ることが簡単にできるようになります。
Treasure Data Serviceでは、HiveQLというSQLライクなクエリーをサポートしています。このテンプレートクエリーを当てはめることによって、そのディメンジョンによる個数や売上などの「内訳」を見ることができるようになります。
(2) 内訳を見るための可視化テンプレート
内訳テンプレートクエリーによって出力されたデータテーブルは、内訳可視化テンプレートに当てはめることで、その内訳を見るのに最適なチャートで可視化できます。
ここでのチャートでは凝ったものではなく、基本的には円グラフ・棒グラフ・折れ線グラフとなります。
(c) 「分布」を見る
(1) 分布を見るためのクエリーテンプレート
内訳テンプレートクエリーがあるディメンジョンにおけるデータの「内訳」を見るのに対して、あるメジャーの値の「分布」を見ることがこのステップです。
分布とは、メジャー項目の値を区切り、その区分に入るレコードがいくらあるのかを計算したものです。
たとえば、中古車の価格の分布といえば、「0〜10万円」「10〜20万円」…という区分に対して市場全体の中古車がどの区分に多く密集しているのかを見ることになります。
(2) 分布を見るための可視化テンプレート
分布を見るための可視化テンプレートも用意されています。基本となるヒストグラム、ヒートマップ、バブルチャートを通じてデータのある項目の分布を見ることが可能になります。
「データを見る」ためのツールを利用する
これまで紹介したステップでは、テンプレートがあるとはいえ、実は、
- SQLの活用能力
- 可視化テンプレートの適切な当てはめ能力
といった条件が要請されていました。この「見る」2ステップを最短ルートでイテレーションするには、可視化ツールに投資することが必要です。
可視化ツールには、次のようなメリットがあります。
- 可視化ツールを用いれば、インプットデータをインポートするだけでサンプル値が参照でき、ディメンジョン/メジャーへの分類を自動的に行ってくれます。
- さらに、項目をx-軸、y-軸領域にドラッグアンドドロップすることで、そのディメンジョンに関する内訳をさくさく計算してくれます。
- また、メジャーを適切に区分分けし、その分布を見るための機能が整備されています。
可視化ツールを利用すると、マウスの直感的な操作でさまざまな項目を「見る」ことが可能になり、項目の選択によってその「見る」イテレーションを高速に行えるようになります。
まとめ
何もないところから、データ収集から目標設定まではノンステップで行える
このようにデータを収集できれば、それを3つの「見る」を通して具体的な目標設定が可能になります。この目標設定の後にデータ「分析」プロセスがやっと始まるのです。
トレジャーデータ流POC
トレジャーデータでは、「収集」と「見る」というフェーズをPOCと見据え、スモールスタートですぐに始められるようなプランを提案させていただいています。
このPOCを経て、データ分析プロジェクトを本格的に行っていきます。