トレジャーデータで実践:A/B テスト(問題集編)
本記事は移転しました。新サイトにリダイレクトします。
トレジャーデータはクラウドでデータマネージメントサービスを提供しています。
↑ 理論編は少し難解ですが,知っておいて損はありません。
さて,本シリーズの最後として他のテスト(統計的仮説検定)の事例を紹介します。
全ての問題で共通においている前提
※ 検定方向ついて
以下で紹介するテストは全て両側検定としている。両側検定についてはこちらを参照して下さい。両側検定にする理由は,(1) 片側より棄却されにくいこと,(2) 信頼区間を同時に求める際に,棄却域と信頼区間が交わるような矛盾を極力避けるため。(ただし信頼区間についてはここでは取り上げません。)
※ 有意水準について
有意水準は全て 0.05 としています。
※ サンプルサイズについて
計算する統計量とそれの従う分布(特に標準正規分布か t 分布かで)はサンプルサイズによって異なってきます。ここでは「大標本」を n > 100 または n_1 + n_2 > 100 ,それ以外を「小標本」とみなします。ただし,母比率の検定は n > 30 を大標本とします。
結果の解釈方法について
理論編の最後にも紹介しましたが,テストの思考フレームワークは以下に統一されます:
- 棄却を目的として,帰無仮説をこしらえる。
- 帰無仮説の下,標本からある分布(正規分布・t分布・F分布・χ^2分布など)に従う統計量 T を求める。
- 統計量 T がその分布の元で稀なケースかどうかをチェックする。
- 稀なケースであり,帰無仮説を疑う方が妥当であると判断できる場合は帰無仮説を棄却し、対立仮説を採択する。そうでないなら何もわからないと判断する。
この「稀なケース」と判断する手段について,p-値 の役割と共に改めて説明を加筆します。
p-値 とは「帰無仮説の下で実際にデータから計算された統計量よりも極端な(大きな)統計量が観測される確率」で表されます。これは例えば p-値が 0.05 の時,「あなたが計算した計算量 T が(仮定する)分布から得られる確率は 0.05 である 」と述べていることになります。テストのスタンスは帰無仮説を棄却する事でした。つまり p-値 が小さければ小さいほど,T がこの分布に従っているという帰無仮説をより強く疑うことができます。
↑ 統計量Tにおける p-値 は x>T なる区間の面積です。この区間から値が得られるのは「非常に稀」考えられます。標準正規分布においては T=1.96 の時,p-値は 0.025 となるので,T が1.96 より大きければ(あるいは反対側,T が -1.96 より小さければ)この分布において「稀なケース」と判断します。
問題集
Q1. 平均の差(対応の無いデータ)
あるデパートで取り扱う「焼酎」カテゴリに対して,会員(A)178人の平均購買単価が640円に対して,非会員(B)422人に対する平均購買単価が994 円であった。この焼酎に関して,会員と非会員では平均購買単価が異なると言えるか?
Q2. 平均の差(対応のあるデータ)
あるECストアの「Automotive Parts and Accessories」カテゴリにおいて,以下のなデータを得た。これを使い,会員ごとの 2011年(A)と2012年(B)の年間購入額に違いがあると言えるか?
time | category | sub_category | member_id | sales_2011 | sales_2012 |
---|---|---|---|---|---|
Jun 06, 2015 @ 03:50:05 PM | Automotive and Industrial | Automotive Parts and Accessories | 1050650 | 12802 | 2400 |
Jun 06, 2015 @ 03:50:05 PM | Automotive and Industrial | Automotive Parts and Accessories | 1050546 | 846 | 1429 |
Jun 06, 2015 @ 03:50:05 PM | Automotive and Industrial | Automotive Parts and Accessories | 1050241 | 1200 | 1000 |
Jun 06, 2015 @ 03:50:05 PM | Automotive and Industrial | Automotive Parts and Accessories | 1049815 | 4000 | 5819 |
⇒ 実践編その3
Q2'. 平均の差(対応のあるデータ)
あるビールメーカーAが自社のビールXとライバルメーカーBのビールYを用意し,220人の客に両者を飲んでもらいそれぞれのビールに 10 段階評価を付けてもらったところ,以下のテーブルを得た。ビールXの方が評価が良さそうであるが,ビールXとYの間には評価に差があると言えるか?
ビールXの平均評価を ,ビールYの平均評価を とし,その差の平均を とする。標本数 n = 220, 標準偏差 とする。
帰無仮説:「 μ_d = 0」,対立仮説:「 μ_d ≠ 0」
統計量:帰無仮説の下で,
は 標準正規分布 に従う。
。
よって p-値は,pnorm(12.74) = 0 < 0.025 。
∴ 帰無仮説は棄却され,ビールの評価には有意な差があると言える。
Q3. 比率の差
ある広告Xを同じ期間中に,サイトAとサイトBに掲載した結果,サイトAには1000回の表示(インプレッション)中に10回のクリックがあった(=クリック率1.00%)のに対し,サイトBでは1200回の表示中に14回のクリックがあった(=クリック率1.16%)。サイトAとサイトBのクリック率には差があると言えるか。
⇒ 実践編その4
Q3'. 比率の差
5月は積極的な招待キャンペーンを行っており,特にそれによる招待成功率の向上が期待されていた。結果は 5月が 530人/2000人 = 26.5%で 4月の 230人/1000人 = 23.0%で効果があったように思われる。さて実際,このキャンペーンは成功だったといえるだろうか。つまり4月に比べて5月の招待成功率は高くなったといえだろうか。
として,
帰無仮説:「p_1 = p_2 (= p)」,対立仮説:「p_1 ≠ p_2」
統計量:帰無仮説の下で,
は 標準正規分布 に従う。
よって p-値は,pnorm(2.078) = 0.019 < 0.025 。
∴ 帰無仮説は棄却され,前月よりも招待成功率は高くなったと言える。
Q4. 比率の差のテスト(ただし排反データ)
あるメーカーAは新しいビールXを開発した。今,斬新なデザイン1を採用するか無難なデザイン2を採用するかを決めかねている。そこで実際にあるお店で300人の買い物客にどちらのデザインが良いかを選んでももらう実験をした。結果はデザイン1が163人,デザイン2が137人であった。さて一見デザイン1の方が人気のようであるが,優位な差が見られるだろうか?
デザイン1の比率を ,デザイン2の比率を とする。n = 300, = 163 / 300 = 0.542, = 137 / 300 = 0.457 である。
帰無仮説:「p_1 = p_2 (= p)」,対立仮説:「p_1 ≠ p_2」
統計量:帰無仮説の下で,
は 標準正規分布 に従う。, を標本比率 , で置き換え,
よって p-値は,pnorm(1.540) = 0.06 > 0.025 。
∴ 帰無仮説は棄却されず,デザインに差があるとは言えない。
Q5. 適合度検定
ある会場でのサンプルユーザーの年齢を,10歳ごとの年代に分けて集計してみると以下のテーブルが得られた(有効数 832人)。こうして眺めて見ると,10代, 20代, 30代, 40代, 50代の人数比が 3 : 3 : 9 : 1 (メンデルの法則)のようになっているように見える。年代によるこの人数比の仮説が妥当かどうか確かめよ。
以下の様なテーブルを作る。
カテゴリ | 観測個数 n_i | 理論個数 m_i | n_i-m_i | (n_i-m_i)^2 | (n_i-m_i)^2/m_i |
---|---|---|---|---|---|
10代 | 146 | 156 | -10 | 100 | 0.6410 |
20代 | 163 | 156 | 7 | 49 | 0.3141 |
30代 | 479 | 468 | 11 | 121 | 0.2585 |
40代 | 44 | 52 | -8 | 64 | 1.2308 |
計 | 832 | 832 | 0 | - | 2.4444 |
帰無仮説の下でカテゴリ数を a とする。
帰無仮説:「ユーザー数の年代分布の比率は 3 : 3 : 9 : 1 である」
統計量: は自由度 a-1 のχ^2 分布に従う。テーブルより T=2.444 。
よって p-値は,pchisq(2.444,3)=0.485 > 0.05。
∴ 帰無仮説は棄却されず,年代ごとの人数比率は 3 : 3: 9 : 1 に従っているとは言えない。
Q6. 等分散検定
アイテムA とアイテムB の分布を見ると,平均売上額は同じであるようだが,アイテムAの分布は平均を中心に山を形成しており,逆にアイテムB は平均を中心に凹んだ谷を形成しているようである。今,標本分布の可視化が行えような状況で,アイテムA とアイテムB の違いを導き出すとするならば,どのような仮説のもとでテストを行えば良いだろうか?
平均が同じだからといって,分布の形まで同じとは限らない。ここでのテストはアイテムA の アイテムB の分散が同じであるかどうかのテストを行うのが好ましい。例えばこの問題において,
- | 課金者数 | 平均課金額 | 標準偏差 |
---|---|---|---|
アイテムA | 300 | 1503 | 235 |
アイテムB | 400 | 1492 | 193 |
であったとする。アイテムA の分散を σ_a,標本不偏分散 を U_a,アイテムBの分散を σ_b,標本不偏分散を U_b とおく。
帰無仮説:「σ_a = σ_b 」,対立仮説:「σ_a ≠ σ_2」
統計量:帰無仮説の下で,
は に従う。
。
よって p-値は, pf(1.48383, 299, 399) = 0.0008 < 0.025 。
∴ 帰無仮説は棄却され,両者の分散には差があると言える。
Q7. ブランディングスイッチ(対称性の適合度検定)
メーカーA は大規模なイベントを実施し,ブランディング効果の向上を図ろうとした。以下は175人に対して実施した,イベント実施前と後の,ライバル含む 3 メーカーでの好みブランドのアンケート結果である。さてさて,このキャンペーンによって有意な好みの推移が起きたであろうか?
帰無仮説:「 」
統計量:帰無仮説の下で,
, は最尤推定量。
は に従う。a をカテゴリ数として, である。
, 。
よって p-値は,chisq_(19.2, 3) = 0.03 < 0.05 。
∴ 帰無仮説は棄却され,ブランドの推移があったといえる。
Q8. 比率の差(小標本)
シーズンも後半にさしかかった頃,最近まで打率 .350 の首位打者であったイチローは,ここにきて20打数3安打と振るわなくなり,首位打者の座が危惧されている。さて最近のイチローの成績はとりわけ悪いといえるだろうか,それともたまたまであろうか?
最近の打率を p とする。最近の打席数を n,実現値を t とおく。ここでは n =20, t = 3 となる。標本数が少ないことに注意する。
帰無仮説:「p = p_0 (= 0.35)」,対立仮説:「p < 0.35」
統計量:帰無仮説の下で,
は に従う。今, なので,
は F(8, 34) に従う。
よって p-値は,pf(2.833, 8, 34) = 0.016 < 0.025 。
∴ 帰無仮説は棄却され,イチローは最近とりわけ成績が悪いと言える。
※ 仮に帰無仮説が棄却できなかった時は成績に関して「何もわからない」ことになる。
Q9. 無相関検定,相関と因果
(「明解演習 数理統計」より,面白い問題があったので利用させてもらった。)
「馬鹿はカゼをひかない」という俗説の信憑性を統計学的に立証しようとよくカゼをひくM君が彼の学友25名を任意抽出して,最近1年間にカゼにかかった回数と数学の成績との相関関係を計算したら,なんと0.41であった。カゼの回数と数学の成績は関係があるといえるか?
母相関係数を ρ とする。
帰無仮説:「ρ = 0」,対立仮説:「ρ ≠ 0」
統計量:帰無仮説の下で,
は に従う。今,n = 25, r = 0.41 なので
よって p-値は, t(2.156, 23)=0.0209 < 0.025 。
∴ 帰無仮説は棄却され,カゼの回数と数学の成績は相関があると言える。
※ しかし,ここで注意すべきはたとえ結果から相関関係は導かれても,因果関係を導いたことにはなっていないということである。相関は言えても因果:「数学の成績が悪い【から】カゼの回数が少ない」つまり「馬鹿はカゼをひかない」とは言い切れないのである。