トレジャーデータで実践:A/B テスト(実践編その3)
本記事は移転しました。新サイトにリダイレクトします。
トレジャーデータはクラウドでデータマネージメントサービスを提供しています。
実践編その1と2では会員/非会員のカテゴリごとの平均購買単価に違いがあるのかについて,網羅的にA/Bテストを実施しました。今回は前回と事例で似ている様で扱いが異なる事例を紹介します。
実例A/Bテスト2
Q. (対応のあるデータ)
あるECストアの2011年(A)と2012年(B)のサブカテゴリごとの売上について,差があるのか比較をしたい。
さて,今回の事例が前回と異なるところを考えてみましょう。前回は会員A/非会員Bという全く交わる事の無いAとBの比較を行いました。一方で今回紹介する2011年と2012年の売上比較というのは,メンバー個々の2011年の購入額と2012年の購入額の総和で求められます。
メンバー単位で見た場合,同一のユーザーが2011年と2012年に購入しているという意味で2011年と2012年の結果は相互に関係のあるデータ(これを「対応のあるデータ」と呼ばれています)となります。
time | category | sub_category | member_id | sales_2011 | sales_2012 |
---|---|---|---|---|---|
Jun 06, 2015 @ 03:50:05 PM | Automotive and Industrial | Automotive Parts and Accessories | 1050650 | 12802 | 2400 |
Jun 06, 2015 @ 03:50:05 PM | Automotive and Industrial | Automotive Parts and Accessories | 1050546 | 846 | 1429 |
Jun 06, 2015 @ 03:50:05 PM | Automotive and Industrial | Automotive Parts and Accessories | 1050241 | 1200 | 1000 |
Jun 06, 2015 @ 03:50:05 PM | Automotive and Industrial | Automotive Parts and Accessories | 1049815 | 4000 | 5819 |
今回扱うデータ(ec_yearly_member テーブル)は,member_id などの個人を識別できるID単位で年間購買額を算出した上のようなデータとなり,レコード数=メンバー数となる大きめのデータです。
「対応のあるデータ」には,他にもアンケートデータがあてはまります:
- 2種類のラーメン x, y の味についてn人に10段階の評価アンケートを実施した。x, y の評価には違いがあるか?
ポイント8:対応のあるデータに対しても同様に統計量Tを求め,z分布による棄却域Rと比較し Reject/Accept を判定する事には変わりない。またはP値を求める事で可視化ができる。
可視化(ボックスプロット)
前回と同様に可視化は有効です。ボックスプロットで箱のずれを確認してみましょう。
↑ 総じて箱は一致しているようですが,2012年の方がばらつきが多く,箱もひげも長くなっています。
実行手順
※ sub_category のサンプル数が100以上の大標本にのみ,検定を実施ていいます。小標本の場合はz分布ではなくt分布を用いますが,ここではそこまで言及していません。
ステップ1:レコードごとにAとBの差違(d)とその自乗(d^2)を求める。
time | category | sub_category | member_id | sales_2011 | sales_2012 | d | dd |
---|---|---|---|---|---|---|---|
1433573405 | Electronics and Computers | Trade In Your Electronics | 574350 | 1886 | 1980 | -94 | 8836 |
1433573405 | Electronics and Computers | Trade In Your Electronics | 574555 | 3867 | 3800 | 67 | 4489 |
1433573405 | Electronics and Computers | Trade In Your Electronics | 576054 | 3896 | 6648 | -2752 | 7573504 |
1433573405 | Electronics and Computers | Trade In Your Electronics | 577411 | 3392 | 3410 | -18 | 324 |
上のテーブルの3行目では,AとBの差が大きいため d, dd の値が大きくなっていることには注意が必要です。「網羅的な」テストでは,極端な差違や偏りにが多くなる場合,判定が歪んでしまう潜在性があります。
ステップ2:統計量,(ただし,)を計算する。
ステップ3: P値を求める。
ここまで「対応のない(その1,2)」「対応のある(その)3」データの平均の差のテストを行ってきました。次回からは比率の差についてのテストを紹介します。