245
9 章
線形回帰とロジスティック回帰
未熟な予測者は、酔っぱらいが街灯を使うのと同じように統計学を使う。明かりとしてではなく自分を支えるために。
— アンドルー・ラング
線形回帰は、訓練データに基づいて値を予測したり分類したりするモデルを構築する最も代表的な「機械
学習」の手法である。線形回帰を取り上げると、次のように対照的な価値を学習できる。
• 線形回帰にはしっかりした理論的基礎があるが、実際には、高速で経験則的な最適化が好まれ、代数
的な定式化は一般的には捨てられている。
• 線形回帰は、定義により線形である。そのために線形モデルの限界にぶつかったり、一般化して他の
形にする巧妙な技法を生み出したりする余地を残している。
• 線形回帰は、数百もの変数を使ったモデルの構築を後押しすると同時に、ほとんどの変数が無視され
るような正則化手法を推奨する。
線形回帰はデータ駆動型モデルを構築する上で基準とすべき基本的なモデリング技法である。線形回帰モ
デルは簡単に構築でき、解釈しやすく、実際に効果的に使えることが多い。十分な技術と経験があれば、よ
り高度な機械学習技法を使ってもっと優れた性能を引き出せるかもしれないが、労力に見合うような成果が
得られない場合も多い。まず線形回帰モデルを作ってから、より良い結果を出すために労力をかける意味が
あるかを考えるべきだ。
9.1 線形回帰
n 個の
点があるとき、図 9 -1 に示すように、線形回帰はこれらの点に最も近似的、すなわちフィットす
る直線を探す。線形回帰を行う理由はいくつもある。1 つは単純化と圧縮である。xy 平面のノイズの多い
点の集合が図 9 -1 のような 1 本の直線に置き換えられるのである。この回帰式は、データのトレンド、外れ
値の位置や度合いを示すので、可視化において役に立つ。 ...