「データドリブン開発時代の技術とその選びかた」：デブサミレポート

はじめに

2015/10/14 にデータエンジニアのためのビッグイベント，Developers Summit Autumn が開催されました。今回のテーマは「データを巡るテクノロジーの冒険」，データ関連のテクノロジーにフォーカスしています。このイベントに弊社のソフトウェアエンジニアである田籠（@tagomoris）が登壇しました。今回は彼の発表内容について，多くの皆様に知ってもらうべく，解説していきます。

f:id:doryokujin:20151015103842p:plain f:id:doryokujin:20151015103721p:plain

トレジャーデータ　田籠聡

【データドリブン開発時代の技術とその選びかた】

Data-Driven Development Era and Its Technologies from SATOSHI TAGOMORI

要旨

ビッグデータやデータサイエンスといった用語が頻繁に用いられるようになって久しくなりました。データを中心とした開発も実際に各企業で行われるようになっておりそれはますます増えていくことでしょう。

しかしその中で使われる技術やソフトウェアはまだ猛烈な勢いで進化を続けており，各々の機能や性能特性が異なる中，どういったソフトウェアを使えばよいのか戸惑うケースも少なくないかもしれません。

このセッションではデータ処理技術としてメインストリームにあるものや改善が話題になっているものを取り上げ各々の特徴について概説するとともに、実際に働く中でどのような基準でどうやってそれらの技術の取捨選択をすればよいのかについて解説します。

プラットフォームを自前で構築するべきか，サービスを利用するべきか

f:id:doryokujin:20151015104249j:plain

実際にデータ分析に着手しようと考えたとき，私達は「データソースの特定，収集，蓄積，データ処理，可視化」といういくつかのコンポーネントがあることに気がつきます。これらのステップを統合したものを「データ分析プラットフォーム」と呼ぶ事にすると，初めの問題はこのデータ分析プラットフォームをどう選定するかということになります。

f:id:doryokujin:20151015104739j:plain

分析プラットフォームの選定において，私達は3つの手段を取る事が可能です。

Fully-Managed：分析のあらゆるコンポーネントの構築と運用を一気通貫して提供してくれるサービスを活用する。この場合では，サービスに払う費用コストは大きくなる替わりに，運用コストや専任エンジニアリソースを節約できます。
Self-Managed：サービスとして提供される個々のコンポーネントを自身で組み合わせて活用する。こちらは費用コストを抑えることができる一方で，適切なコンポーネントを選択し，管理できるエンジニアは最低限必要となります。
Own Environment：プラットフォームの構築を全て自前で行う。近年のHadoop環境も落ち着きましたので，自前でプラットフォームを構築・運用するという選択肢もありますが，多くの専任エンジニアを抱え込む必要があります。

それではこれら3つの選択肢の，どれを選ぶべきでしょうか？

f:id:doryokujin:20151015131615j:plain f:id:doryokujin:20151015131632j:plain