
2.3 相関分析 41
図 2 -9 d
i
= y
i
− f(
x
i
) をプロットすると、残差の分散はもとのデータよりも分散が小さくなり、平均が 0
になることがわかる。左側がもとのデータ、右側がそれに対応する残差である
差 d
i
= y
i
− f (x
i
) をプロットしたものである。左のグラフの y の分散 V (y) = 0.056 は、右のグラ
フの残差の分散 V (d) = 0.0065 よりもかなり大きい。実際、次の式が成り立つ。
1 − r
2
= 0.116 ⇐⇒ V (d)/V (y) = 0.116
• 統計的有意性:相関が統計的に有意かどうかを判断するためには、r だけでなく、標本サイズ n も
必要になる。伝統的に、無作為に n 個の点の集合を取り出したときに、残差が d を超える確率 α が
α ≦ 1/20 = 0.05 なら、n 個の点の相関は有意であると言う。
これはそれほど厳しい基準ではない。図 2 -8(右)が示すように、標本サイズが十分大きければ、相
関係数の値が小さくても有意水準 0.05 で統計的に有意になる。r = 0.1 の相関では、分散のわずか
1 % しか説明できないものの、有意水準を α = 0.05 とすれば、n = 300 程度で統計的に有意になる。
特徴の多い大規模なデータモデルでは、弱くても有意な相関には価値がある。1 つの特徴/相関では小さな
効果しか説明/予測できないが、弱くても独立した相関を多数組み合わせると予測力は強くなる。おそらく。
有意性については、 ...