
254 9 章 線形回帰とロジスティック回帰
に相関している。しかし、完全に相関している特徴を追加しても、予測に役立つ情報は増えないので、どち
らかは不要だ。このような重複する特徴に意味があるのなら、データ行列の列のコピーを追加するだけでよ
り正確なモデルが得られることになってしまう。
しかし、相関する特徴は、役に立たないだけでなく、モデルにとって有害ともなる。従属変数が身長の関
数だ
ったとする。x
1
だけを使っても、x
2
だけを使っても、x
1
と x
2
の線形結合を使っても同じくらいに性
能の高いモデルが得られる。それでは、答えとしてどれを選べばよいのだろうか。
これは紛らわしいというだけだが、もっとまずい問題が起こる。共分散行列の行が相互依存するようにな
るので、w = (A
T
A)
−1
A
T
b を計算するために、特異行列の逆行列を求める必要があるが、特異行列には逆
行列が存在しないので無理な話である。
この問題を解決するには、適切な共分散行列を計算して、過度に相関し合う特徴の対を明らかにする必要
がある。そういうものがある場合、どちらか片方を削除しても、予測力はほとんど下がらない。相関の高い
特徴の一方を、もう一方の特徴で表すこと省略するならなお良い。この問題は、8.5.1 節で説明した特異値
分解などの技法を使って次元削減することによって解消できる。
9.3 私の体験談から:タクシー
デリバー
配達
私には人生で誇りに思うことがたくさんあるが、おそらく最大の誇りはニューヨーカーであることだ。私
は世界で最も刺激的な街、つまり宇宙の真の中心に住んでいるのである。そんな天文学者たちは、タイムズ ...