
250 9 章 線形回帰とロジスティック回帰
図 9 -4 外れ値(左)を取り除くと、ずっと意味のあるフィッティングが得られる(右)
我々
がこの問題に初めて遭遇したのは、アンスコムの例と呼ばれる基本統計量が同じ 4 つの小さなデータ
セットと回帰式を並べた図 6 -3 だった。4 つの例のうち 2 個は、たった 1 個の外れ値のために回帰式がとん
でもないものになっていた。外れ値を取り除けば、回帰式はデータを適切に表現するものになる。
図 9 -4 は、右下の外れ値を含んでいる場合の最適な回帰式(左)と取り除いた場合の最適な回帰式(右)
を示したものである。外れ値を取り除いた場合の r
2
は 0.917 で、含む場合の 0.548 と比べてずっと良い。
つまり、適切に外れ値を検出して取り除けば、よりしっかりとフィットする回帰式が得られる。最も単純
な方法は、点の集合全体にフィットさせてから、残差 d
2
i
= (y
i
− f (x
i
))
2
を使って点 p
i
が外れ値かどうか
を判断するというものである。ただし、削除してしまう前に、それらの点が本当に誤りだと自分で納得する
ことが大切である。そうでなければ、ただ単に削除しなかった標本にしっかりとフィットする印象的な回帰
式を作っただけになってしまう。
9.2.2 非線形関数への回帰
線形の関係は非線形の関係よりも理解しやすく、より良いデータがないときのデフォルトの想定としては
おおむね適切である。多くの現象はもともと線形であり、従属変数は、入力の独立変数におおよそ比例して ...