
126 5 章 統計分析
100 % 重な
り合うが、間が離れていて重なり合いがなければ 0 % になる。合理的なしきい値は、小さ
な効果量が 85 % 以上、中程度の効果量が 67 % 以上、大きな効果量が 53 % 以上重なり合う。
もちろん、統計的に有意でないものの効果量は本質的に疑わしい。図 5 -10 の計算機科学の博士取得者と
ゲームの相関は、結論を支持できるだけの標本サイズと方法論があれば、莫大な効果量になっていたとこ
ろだ。
今後の課題
統計的有意性は標本サイズによって左右されるが、効果量はそうではない。
5.3.2 t 検定:母平均の比較
2 つの
母集団の間で平均が大きく離れていれば、効果量が大きくなる可能性があることを説明したが、測
定値がいくつあれば現象を本物だと考えてもよいのだろうか。20 人の男性と 20 人の女性の IQ を測定した
とする。得られたデータから、平均的に男性または女性の方が賢いと言えるだろうか。2 つの標本平均は、
少なくともある程度は異なるはずだが、この差は有意だろうか。
t 検定は、2 つの標本の母平均が異なるかどうかを評価する。これは、製品の改造により性能に差が生ま
れたかどうかを評価する A/B テストでよく問題になる。一方のユーザのグループにバージョン A、もう一
方のユーザのグループにバージョン B を見せるものとする。また、個々のユーザについて、広告のクリック
回数や使いやすさを尋ねたときの星の数といったシステムの性能指標を測定するものとする。t 検