
9.2 より良い回帰モデル 253
では、私の子とビル・ゲイツの子の両方に対して適切な答えは得られないだろう。収入が教育レベルに影響
を与えるのは、おそらく全体の下の方だけである。貧困ライン以下の子どもたちは平均的に高校より上の学
校へは進学しないのに対し、アッパーミドル層の子どもたちは大学に進むだろう。しかし、変数に線形に重
みを付ける方法では、ビル・ゲイツの子に数百、数千年の教育を与えてしまうだろう。それでは正しい関係
をつかむことはできない。
最大値と中央値、あるいは最小値と中央値との距離が大きくかけ離れているときには、係数で特徴を操作
しても、大きな値でおかしなことが起きてしまう。収入レベルはべき乗則分布であり、そのようなべき乗則
変数
では、線形変換にすぎない Z スコアは役に立たない。ポイントは、そのような特徴 x の代わりに、ある
いは特徴 x に加えて、log(x) や
√
x のよ
うな劣線形関数を使うことである。モデルの構築のためには、変
換後の変数の Z スコアの方がずっと役に立つだろう。
劣線形ターゲットスケーリング
範囲の狭い係数でターゲットを表現するためには、ターゲットの範囲も狭くなければならない。Z スコア
化された変数で GDP を予測しようとすると、非常に大きな係数が必要になる。−3 から +3 までの変数の
線形結合で数兆ドルというターゲットを導き出すためにはそうするしかない。
ターゲットの値をドル単位から 1 兆ドル単位にスケーリングすればある程度役に立つかもしれないが、
もっと深い問題がある。特徴が正規分布に従うのなら、ターゲットも同じように線形分布に従わなければ線 ...