トレジャーデータで実践：Basket 分析（応用編２）

本記事は移転しました。新サイトにリダイレクトします。

はじめに

トレジャーデータはクラウドでデータマネージメントサービスを提供しています。

今回はバスケット分析シリーズの第5回（応用編２）となります。

<a href="http://treasure-data.hateblo.jp/entry/2015/04/30/131247" data-mce-href="http://treasure-data.hateblo.jp/entry/2015/04/30/131247">トレジャーデータで実践：Basket 分析（応用編１） - トレジャーデータ（Treasure Data）公式ブログ</a>

意外性のあるペアの発見

さて，これまで共起度または共起係数の高いアイテムペアを上から見ていきましたが，実はほとんどの共起回数／係数の高いペアは同カテゴリ・同サブカテゴリ内の類似品（または当たり前のペア）であったりします。

カテゴリ同士の共起係数（Cosine Coeff）比較

ここでは Goods Id ではなく2つ上の階層の Category 同士の共起係数を見ていきます。ここからは Cosine 係数を扱っていきます。

f:id:doryokujin:20150501144640j:plain

Cosine 係数は式：| A ∩ B | / sqrt ( | A | * | B | ) で表される共起係数の一種です。単純な共起回数や癖の強い Simpson 係数とは違って，扱いやすい係数です。（共起係数については実行編をご参照下さい。）

上のテーブルはカテゴリ間の共起係数をヒートマップによって可視化したものです。当然ですが，同カテゴリ内のアイテム同士（対角線上）の共起係数が高いことがわかります。

異なるカテゴリ間の共起係数の高いペア

今回は異なるカテゴリで，共起係数が高いペア（意外性を秘めたペア）を発見する手順を見ていきましょう。今回は異なるカテゴリとしては共起係数の高い

「Books and Audible」×「Movies and Music and Games」

のカテゴリの共起係数にフォーカスしていきます。

サブカテゴリ同士の共起係数（Cosine Coeff）比較

上のバーテーブルはサブカテゴリ：「Sports and Outdoors」に共起する他の全サブカテゴリとの共起係数を表しています。このように縦横に延びる多数の項目を持つ場合，かつセルの値がそれほど差違の無い今回のようなケースでは，ヒートマップ（色による識別）よりバー（バーの長さによる識別）が有効です。