トレジャーデータ(Treasure Data)ブログ

トレジャーデータ(Treasure Data)ブログです。

本サイトは移転しました。新サイトにリダイレクトします。

トレジャーデータで実践:A/B テスト(実践編その4)

本記事は移転しました。新サイトにリダイレクトします。

トレジャーデータはクラウドでデータマネージメントサービスを提供しています。

 

はじめに(平均と比率について)

実践その1,その2では以下のような事例を考えました。

 Q.(平均の差)

あるデパートで取り扱う「焼酎」カテゴリに対して,会員(A)178人の平均購買単価が640円に対して,非会員(B)422人に対する平均購買単価が994 円であった。この焼酎に関して,会員と非会員では平均購買単価が異なると言えるか。

今回扱う事例は以下のものです:

Q.(比率の差) 

ある広告Xを同じ期間中に,サイトAとサイトBに掲載した結果,サイトAには1000回の表示(インプレッション)中に10回のクリックがあった(=クリック率1.00%)のに対し,サイトBでは1200回の表示中に14回のクリックがあった(=クリック率1.16%)。サイトAとサイトBのクリック率には差があると言えるか。

さて, この2つの事例は一見同じ方の事例のように見えますが,テストにおいて求める統計量Tの計算方法が異なります。今回の事例を扱うのに際して,平均と比率の意味の違いを述べておきます。

ポイント9: テストの脈絡で平均購入額のように,分母と分子で単位が異なるもの(例:100 [円]/[人], 60[km]/[h])を「平均」と呼ぶのに対し,分母と分子の単位が同じで互いに相殺される値,言い換えれば単位が[%]となるもの(例:10 [回] /1000 [回] = 0.01 = 1.0 [%])を「比率」と呼ぶ。

今回の事例は比率の差についてのテストの話になります。同型の事例として,

  • 店舗Aと店舗Bにおいて,来訪者に対してカメラAを購入した人数という購入率に違いがあるか

といったものがあります。

今回も大標本を前提とします。大標本の元では考慮すべき分布はz分布なので,計算手法に関しては

と同じです。

実例A/Bテスト3

Q.ある広告を同じ期間中に,サイトAとサイトBに配信した結果,それぞれの表示回数とクリック回数を得た。サイトAとサイトBのクリック率には差があると言えるか。

ad_idsite_asite_bimp_times_aclick_times_aimp_times_bclick_times_b
9396898 Amazon.co.jp通販サイト Qoo10(旧:Gmarket) 13 0 12189 114
9412912 ASUS shop TSUKUMO ネットショップ 3237 18 4729 27
9397035 99円サーバ ADPRESSO 2135 20 4730 32
9412869 ASUS shop RealPlayer 41971 220 391453 698
9426197 FLYMEe IDEE SHOP Online(インテリア・家具) 46 0 722 6
9413472 DURAS公式通販サイト R-online The Shop 68119 191 441431 529

 

実行手順

※ imp_times_a + imp_times_b < 100 となる大標本にのみ検定を実施しています。 

ステップ1:統計量T=\frac{p_1-p_2}{\sqrt{\left( \frac{1}{n_1}+\frac{1}{n_2} \right) {p(1-p)}}},(ただしp=\frac{n_1 p_1+n_2 p_2}{n_1+n_2})を計算する。
ステップ2: P値を求める。

▼いつものようにテストサマリーレポートを作ってみましょう。