(2014年総集編2)トレジャー管理コンソールが大幅アップデート:圧倒的支持多数でコマンドライン党を圧倒
本記事は移転しました。新サイトにリダイレクトします。
はじめに
トレジャーデータはクラウドでデータマネージメントサービスを提供しています。
Treasure Data Service(トレジャーデータサービス)では,サインアップを行ったあとにデータにアクセスするための2種類の手段が得られます。
A. Treasure toolbelt(コマンドライン)からのアクセス
toolbeltは,Windows,Mac,Linux にインストールできるコマンドラインツールです。コマンドライン上でTreasure Data Serviceに対するさまざまな操作が可能です。Emacsなどのエディタでクエリーを作成し,td query コマンドで実行します。また,データベースの参照や実行中ジョブの閲覧などのすべての操作が可能で,コマンドラインに慣れたエンジニアなら,手元のノートPCからさくっとデータ処理ができます。sedやawkでの前処理とも連携できるこのコマンドラインツールは,非常に便利なものでした。
↑Emacs上でクエリーを作成,保存。
↑ td queryコマンドの実行。
B. 管理コンソール
しかしながら,コマンドラインに不慣れな人や,もっと手軽にデータを操作したいと思う人もたくさんいると思います。トレジャーデータは,エンジニアやアナリストに限らず,すべてのユーザーが簡単にデータにアクセスし,親しむことを目標に掲げています。そういった人たちに用意された手段こそ、この「管理コンソール」なのです。
管理コンソールからできることを順番に見ていきましょう。
1. Collect Data
Treasure Data Serviceには4種のデータ収集方法があり,管理コンソールからその手法を参照することが可能です。
この中で一番手軽なのは「File Upload」で,手元のcsvファイルをコンソールから簡単にアップロードすることが可能になりました。
アップロードされたcsvファイルはヘッダーとその型が認識され,さまざまなdatetime フォーマットをタイムスタンプに変換します。
2. Databases
実際にどんなデータがどこに入っているのかは,「Databases」から確認ができます。分析を始める前に,データを「眺める」ことは非常に重要です。
3. New Query
コンソール上のクエリーエディタは,格段に進歩しました。
現在のバージョンでは,以下の便利な機能をもっています:
- 「データベース,テーブル,カラムの参照」:エディタ上から対象となるカラムを簡単に選択できます。
- 「シンタックスエラーハイライト」:クエリーのシンタックスに間違いがあれば,その場でエラーを指摘してくれます。
- 「クエリーの保存・読込」:過去に保存したり実行したクエリーを簡単に読み込めます。
4. Queries
定期的に同じクエリーを実行する場合,この機能によってクエリーを保存することが可能です。SQL文と同時に,以下の機能の保存が可能です。
- 「DATABASE」:どのDBへ実行するのか。
- 「TYPE」:バッチ型,アドホック型の選択。
- 「SCHEDULE」:どのインターバルで実行するのか,cron ライクな設定が可能。
- 「LAST JOB」:そのクエリーで最後に実行されたジョブ。
5. Jobs
実行されたジョブの状況を簡単に閲覧することが可能です。
実行中のジョブにアクセスすると,現在の処理の進捗がリアルタイムに更新されていきます。
また,成功済みのジョブに対しては,その履歴とともに結果データのダウンロードが可能です。