
94 4 章 スコアとランキング
数に重みを付ければ、さらによいスコアリング関数になる。しかし、それほど大きな差が生まれるこ
とはないはずだ。
• 意味のある形で差をつける:同点がいくつも出るようでは、ランキング関数のありがたみはかなり失
われ
る。人の指の本数のランキング関数は意味がないだろう。ごく一部のみが 12 本だが、大多数は
10 本で、事故などで 10 本よりも少ない人々がごくわずかいるというよう状況になってしまう。
一般に、スコアは同点になる確率を下げるために、適正な範囲の実数にすべきだ。差別化のために、
注目している性質と相関している副次的な特徴を導入するとよい。
4.3 Z スコアと正規化
モデルを正しく機能させるためには、できる限り簡単にすべきであるというのは、データサイエンスの重
要な原則である。線形回帰のような機械学習技法は、与えられたデータセットに最もよくフィットする直線
を見つけるものとされている。しかし、複数の変数を使って何かにフィットさせようと思うなら、その前に
それらの変数の範囲と分布を正規化することが大切である。
主な正規化方法は、Z スコア(Z-変換)である。Z スコアは、次のように計算する。ただし、µ は分布の
平均、σ は標準偏差である。
Z
i
= (a
i
− µ)/σ
Z スコアは、正規化を考えずに集められた変数を変換して一様な範囲に揃える。インチ単位で測定された
身長の Z スコアは、マイル単位で測定された身長の Z スコアとまったく同じになる。そして、すべての点
の