トレジャーデータで実践：A/B テスト（実践編その３） - トレジャーデータ（Treasure Data）ブログ

トレジャーデータはクラウドでデータマネージメントサービスを提供しています。

<a href="http://treasure-data.hateblo.jp/entry/2015/06/05/151926" data-mce-href="http://treasure-data.hateblo.jp/entry/2015/06/05/151926">トレジャーデータで実践：A/B テスト（実践編その１） - トレジャーデータ（Treasure Data）公式ブログ</a>

<a href="http://treasure-data.hateblo.jp/entry/2015/06/08/145745" data-mce-href="http://treasure-data.hateblo.jp/entry/2015/06/08/145745">トレジャーデータで実践：A/B テスト（実践編その２） - トレジャーデータ（Treasure Data）公式ブログ</a>実践編その１と２では会員／非会員のカテゴリごとの平均購買単価に違いがあるのかについて，網羅的にA/Bテストを実施しました。今回は前回と事例で似ている様で扱いが異なる事例を紹介します。

実例A/Bテスト2

Q. （対応のあるデータ）

あるECストアの2011年（A）と2012年（B）のサブカテゴリごとの売上について，差があるのか比較をしたい。

さて，今回の事例が前回と異なるところを考えてみましょう。前回は会員A／非会員Bという全く交わる事の無いAとBの比較を行いました。一方で今回紹介する2011年と2012年の売上比較というのは，メンバー個々の2011年の購入額と2012年の購入額の総和で求められます。

メンバー単位で見た場合，同一のユーザーが2011年と2012年に購入しているという意味で2011年と2012年の結果は相互に関係のあるデータ（これを「対応のあるデータ」と呼ばれています）となります。

time	category	sub_category	member_id	sales_2011	sales_2012
Jun 06, 2015 @ 03:50:05 PM	Automotive and Industrial	Automotive Parts and Accessories	1050650	12802	2400
Jun 06, 2015 @ 03:50:05 PM	Automotive and Industrial	Automotive Parts and Accessories	1050546	846	1429
Jun 06, 2015 @ 03:50:05 PM	Automotive and Industrial	Automotive Parts and Accessories	1050241	1200	1000
Jun 06, 2015 @ 03:50:05 PM	Automotive and Industrial	Automotive Parts and Accessories	1049815	4000	5819

今回扱うデータ（ec_yearly_member テーブル）は，member_id などの個人を識別できるID単位で年間購買額を算出した上のようなデータとなり，レコード数＝メンバー数となる大きめのデータです。

「対応のあるデータ」には，他にもアンケートデータがあてはまります：

2種類のラーメン x, y の味についてn人に10段階の評価アンケートを実施した。x, y の評価には違いがあるか？

ポイント8：対応のあるデータに対しても同様に統計量Tを求め，z分布による棄却域Rと比較し Reject/Accept を判定する事には変わりない。またはP値を求める事で可視化ができる。

可視化（ボックスプロット）

前回と同様に可視化は有効です。ボックスプロットで箱のずれを確認してみましょう。

f:id:doryokujin:20150609151939p:plain

↑ 総じて箱は一致しているようですが，2012年の方がばらつきが多く，箱もひげも長くなっています。

実行手順

※ sub_category のサンプル数が100以上の大標本にのみ，検定を実施ていいます。小標本の場合はz分布ではなくt分布を用いますが，ここではそこまで言及していません。

ステップ1：レコードごとにAとBの差違（d）とその自乗（d^2）を求める。

time	category	sub_category	member_id	sales_2011	sales_2012	d	dd
1433573405	Electronics and Computers	Trade In Your Electronics	574350	1886	1980	-94	8836
1433573405	Electronics and Computers	Trade In Your Electronics	574555	3867	3800	67	4489
1433573405	Electronics and Computers	Trade In Your Electronics	576054	3896	6648	-2752	7573504
1433573405	Electronics and Computers	Trade In Your Electronics	577411	3392	3410	-18	324

上のテーブルの3行目では，AとBの差が大きいため d, dd の値が大きくなっていることには注意が必要です。「網羅的な」テストでは，極端な差違や偏りにが多くなる場合，判定が歪んでしまう潜在性があります。

ステップ2：統計量 $T=\frac{\bar{d}}{\frac{s_{d}}{\sqrt{n}}}$ ，（ただし $\bar{d}=\frac{\Sigma_{d}}{n}$ ， $s_d=( \Sigma{d^2}-n(\bar{d}) ) / (n-1)$ ）を計算する。

ステップ3: P値を求める。

ここまで「対応のない（その１，２）」「対応のある（その）３」データの平均の差のテストを行ってきました。次回からは比率の差についてのテストを紹介します。