
3.4 私の体験談から:市場を読み切れ 73
正規
分布データでは、平均から k 標準偏差分離れた値が出現する確率は、k
2
で指数関数的に減少する。
身長が 10 フィート(3 メートル)のバスケットボール選手がいない理由もこれによって説明できる。要す
るに、外れ値を見つけるための妥当な境界線が得られるわけである。べき乗則分布は、これと比べると外れ
値を見つけにくい。平均的な個人の 1 万倍以上の資産があるビル・ゲイツのような人間は実際に存在する。
外れ値のフィールドを持つ行を削除して先に進むという方法は単純すぎる。外れ値は、対処する必要のあ
る系統的な問題があることを示していることが多い。歴史的な人物のデータセットを寿命という側面から見
てみよう。聖書で出てくるメトシェラ(969 歳まで生きたとされる)を外れ値として、彼を取り除くのは簡
単なことだ。
しかし、彼が存在することは、ほかにも削除することを検討すべき人物がいる兆候だと考えるようにすべ
きである。メトシェラの生年月日と死亡年月日がはっきりしていないことに注目しよう。おそらく、生没年
月日なしで没年齢が公表されている人の没年齢は疑わしく、削除の対象になり得ると考えるべきだ。それに
対し、Wikipedia に掲載されている人で最も寿命が短い人物(フランス王ジャン 1 世)は、生後 5 日で死ん
でいる。しかし、生年月日(1316 年 11 月 15 日)と死亡年月日(同年同月 20 日)はわかっているので、私
は彼の寿命を正確だと考える。
3.4