2014年1月6日月曜日

統計学的検定に対するある拒絶反応

このエントリーをはてなブックマークに追加
Pocket

「この最後の信頼区間の使い方違和感ありません?」と言われて、「仮説検定はいらない(Request for Comments|ご意見求む)」と言うブログのエントリーを見てみたら、色々と統計学への誤解が積み重なっており、さらにデータが仮説を裏付けないと言う事実に拒絶反応を示していた。色々と問題があるのだが、気付いたところを幾つか列挙してみたい。

1. 仮説検定は基本的に行うべき

問題エントリーで『「施策の効果をテストしたいな」「はい。仮説検定」って、それってのび太くんにとって有益なの?』と言っているが、仮説検定をしないのはむしろ有害に思える。やっても毒にも薬にもならない事もあるわけで、そういう状況を示せ無いようなデータ分析にどれほどの意味があると言えるのであろうか。創意工夫した施策の効果が有意性無し(=施策の効果があるとは言えない)と言われたら面白くは無いであろうが、必ずしも都合の良い結果が出ないのが統計学的手法の良いところでもある。見たくない現実に拒絶反応を示しても「のび太くんにとって有益」とは言えないであろう。ドラえもんも口が悪いしそう言うはず。

2. 仮説検定と区間推定は本質的に違いは無い

問題エントリーでは仮説検定をする代わりに信頼区間を出そうと主張しているのだが、分かりやすさと見栄えの観点から区間推定を利用するのは悪い選択ではないとは思うが、仮説検定と区間推定で本質的な違いは無い。

統計解析の結果として標本平均と標本分散が得られた後に、この二つを使ってある値(e.g. 0)と異なる事を検定するのが仮説検定で、この二つを使って母平均がデータから棄却されない範囲を定めるのが 区間推定だからだ。有意水準5%の両側の仮説検定で0の棄却に失敗したら、95%信頼区間の区間推定の間に0が入ることはない。

上は帰無仮説(H0:0)を検定した場合に、5%の片側検定で有意性の無いケースとあるケースの例をヒストグラムで示したものだが、90%区間推定をすると前者は-5~+6ぐらいになるし、後者は0~+3ぐらいになる。

3. 天気予報の確率と有意水準の違い

問題エントリーの元の話題に書いてあった事なのだが、(根拠不明だが)天気予報に対する人々の行動パターンを根拠に有意水準は「たぶん20%くらいでいいんじゃないかと思います」とブログ主は主張していたのだが、天気予報の確率は予測値であって有意水準の確率とは異なるので誤解を招きそうだ。天気予報の確率20%は、帰無仮説(e.g. H0:0%)を立てて検定できるし、95%信頼区間(e.g. 15~25%)を求める事も出来る。数字的には1%有意の降水確率10%もあり得るわけで、降雨量を無視すれば、これで傘を持って行きたい人も少ないであろう。有意水準だけが取るべき行動を決定するわけではない。

4. 有意になるまで待つと何が起きるか?

問題エントリーに『「有意にならなかったら有意になるまで待つ」をやってたらなんでも有意にできちゃう』とあるのだが、そんな事は無い。

まず、観測数が多くなればなるほど、標準偏差は小さくなっていくのだが、母集団の真の値と帰無仮説が同一であれば有意にならない。次に、真の値と帰無仮説が僅かに異なる場合でも、真の値と帰無仮説の差が拡大するわけではない。

回帰モデルy = α + βx + ε(xとyが観測値、αとβが係数、εが誤差項)があったとして、βの標準偏差が小さくなって、統計的検定でβ≠0が示されたとしても、βの値がなんでもいいと言うことにはならない。βがゼロを棄却できなければxとyの関係は統計的には何も言えないし、ゼロを棄却できてもごくごく僅かなβでは現実的な意味は無くなる*1

5. 多変量解析が忘れさられている

ウェブページのリンクのクリック率を分析するA/Bテストの文脈でかかれているせいなのか、『パターン2:「AとBでテストやって、つぎはBとCでテストやって……」』と『パターン3:「色はAがいい。かつフォントはBがいい。だからそれ組み合わせたら最強」』の部分で、「だめです」と言う結論はともかく、多変量解析が忘れさられているのが気になった。また、瑣末的な部分ではあるが、リンクの色とフォントが「独立じゃない」(共分散がゼロではない)と言えるのであろうか。効果が単純に累積しないと言う主張は分かるのだが。

追記(2014/01/16 18:51):返事が書かれていたのだが、気になる所があるので追記したい。

僕は仮説検定自体を批判してるんじゃなくて、Web系施策のA/Bテストの場合

Web系施策のA/Bテストの場合だけ特別に仮説検定をしない理由は見当たらないように思える。

本質的な違いかどうかは知りませんが、ここで言ってるのって平均の差の検定と、平均の差の信頼区間の話じゃないでしょうか? ぼくが推奨したのは、比率の信頼区間です。

比率a/bの信頼区間の場合は、H0:1=a/bを帰無仮説とする検定と本質的に同じモノを見ることになる。

追記(2014/01/28 02:56):問題のブログ主が言葉を理解できていなかったようなので、追記しておこう。

だれも「H0:1=a/bを帰無仮説とする検定」の話なんかしてなかったですよね? 今まで。

本文では帰無仮説をしろ立てろとは書いているが、具体的な帰無仮説がこうあるべきなんて書いていない。

帰無仮説はゼロであるべきと思ったのかも知れないが、「統計解析の結果として標本平均と標本分散が得られた後に、この二つを使ってある値(e.g. 0)と異なる事を検定するのが仮説検定」と書いておいた。e.g. は exempli gratia の略で「〈ラテン語〉例えば、例を挙げると」と言う意味になる。

*1ある食品添加物に統計学的に有意に毒性があると確認されたとして、1日1Kgを継続的に食べ続けて平均余命が1日減る程度であれば、現実的な危険性があるとは言えないであろう。

1 コメント:

さんのコメント...

性懲りもなくこんな記事を書きました。
http://abrahamcow.hatenablog.com/entry/2014/06/25/044107
よろしければまたディスってください。お願いします。

コメントを投稿