
272 9 章 線形回帰とロジスティック回帰
る。そ
して、1 人の本物のテロリストを正しい側に移せば、そのクローンも全員移ることになるので、
オーバーフィッティングを起こしやすいのは間違いない。個々のクローンに一般的な母集団の分散に
合わせてランダムなノイズを加えれば状況は改善される。こうすると、分類器はクローンを見つけに
くくなり、オーバーフィッティングが抑えられる。
• 大きなクラスのものよりもまれなクラスの訓練データに比重を置く:パラメータ最適化のための損失
関数には、個々の訓練データの誤差項が含まれている。しかし、最も重要なデータセットの係数に重
みを加えても、凸最適化問題が残るだけなので、確率的勾配降下法で最適化できる。
この 3 つの解決方法の問題点は、確率分布の台を変えることにより、分類器にバイアスをかけることだ。
おそらく、ベイズの事前分布を明確にすることにより、一般的な母集団の中にいるテロリストは極端に少な
いことを分類器に知らせることが重要だ。
もちろん、最良の方法は、まれな方のクラスの訓練データをかき集めてくることだが、それは常に可能だ
とは限らない。この 3 つは、まれなクラスの訓練データが集まらないときの代案としては最も優れているは
ずだ。
9.7.2 マルチクラス分類
分類問題は、3 つ以上のラベルから適切なものを選ばなければならないことが多い。与えられた映画の
ジャンルを判断するという問題について考えてみよう。ドラマ、コメディ、アニメ、アクション、ドキュメ
ンタリー、音楽といったラベルが考えられる。 ...