
326 11 章 機械学習
0.0375 > 0.0111 なの
で、単純ベイズはビーチ日和だと言っている。(晴れ, 中, 高) という組合せが訓練
データにあるかどうかは、この結果と関係ない。最近傍分類とは異なり、単一の行ではなく、集計から得ら
れた確率に基づいて判断を下している。
11.1.2 カウント 0 の処理(スムージング)
単純ベイズアルゴリズムにおいて、特徴を準備することは、細かいことではあるが重要な問題である。観
測値は、非常にまれな(ロングテールができている)事象の頻度を正確に捉えられない。
この問題を最初に提起したのは、数学者のラプラスである。「明日、日が昇る確率はどのくらいか。1 に
近いだろうが、1.0 ではないはずだ。人類が日は昇ることに気付いて以来、3, 650 万日ほどは、まるで時計
のように規則正しく毎朝日は昇ってきたが、永遠にそうであるわけはない。いずれ地球か太陽が爆発すると
きがやってくる。今晩がその夜である確率はとても低いが、0 ではない」
有限のデータセットにはまだ現れていないが、起こり得る事象は必ずある。100 人を調査して、その中に
赤髪の人が 1 人もいないことはある。しかし、赤髪の人の確率を 0/100 = 0 としてしまうと、本当に赤髪
の人を分類するように言われたときに、赤髪の人が入る確率は、どのクラスも 0 になってしまう。さらにま
ずいのは、訓練セット全体で赤髪の人が 1 人だけいて、そのクラスにラベル C
2
が付けられている場合であ
る。単純ベイズ分