
4.4 ランキングの高度な技法 95
見つける。アルゴリズムが本当に望むなら、その係数は σ に近くてもよい。
しかし、ここで
数値演算の現実に直面する。例えば、アメリカの都市に関する 2 つの変数(例えば、平方
マイル単位の面積と人口)で線形モデルを構築しようとしたとする。第 1 の変数の平均は約 5 で、最大値は
100 くらいである。第 2 の変数の平均は 25, 000 で、最大値は 8, 000, 000 くらいである。2 つの変数がこの
モデルに同じような影響を与えるものとすると、第 2 の変数は 10,000 程度の数で割らなければならない。
これは係数の精度の問題を引き起こす。係数の値をごくわずか変更すると、人口の値がモデルをどの程度
支配するかが大きく変わってしまうのである。変数の規模と分布の範囲をおおよそ同じにすれば、この問題
はある特徴の重みがもう片方の 2 倍になるかどうかになるので、ずっと良い。
Z スコアが最も役に立つのは、平均 µ と標準偏差 σ で完全に説明できる正規分布に従う変数である。
べき乗則分布に従う変数では、正規分布に従う変数ほどうまくいかない。平均が 200, 000 ドルほどで、
σ = 200, 000 ドルのアメリカの資産の分布について考えてみよう。すると、資産 800 億ドルのビル・ゲイツ
の Z スコアは 4, 999 になるはずだ。平均が 0 ということを考えれば、まだ桁外れの外れ値である。
不適切に正規化された変数を使うのは、データ分析で最もしてはならないことである。ビル・ゲイツの数 ...