
200 7 章 数理モデル
と答
えるベースライン分類器は、がん検出問題で 95 % の正確度を達成する。これは、両方のクラス
で 94 % 正しいバランスの取れた分類器よりも高い。
• 再現率は、分類器のバランスが取れているときに限り、正確度と等しくなる:両方のクラスを同じ正
確度で認識できるとすばらしいことが起こる。訓練データの両クラスのサイズが異なるときには、訓
練でこれを自動的に実現することはできない。実際、一般に訓練セットの陽性事例と陰性事例の数を
揃えるとよいとされているのは、そのためである。
• 2 つのクラスでサイズが大きく異なると、適合率を高くするのは非常に難しい:がん検出問題では、
陽性事例と陰性事例の両方で 99 % の正確度を持つバランスの取れた分類器でも、84 % 以上の適合率
を達成することはできない。これは、陰性事例が陽性事例の 20 倍近くもあるからだ。大きい陰性ク
ラスで 1 % の分類ミスが起きて偽陽性が生まれると、真陽性が 5 % しかいない状況のもとでは大き
な影響が及ぶ。
• 1 つの指標だけで判断しなければならないときには F 値が最も適しているが、分類器の性能を説明す
るときには 4 つの指標のそれぞれに意味がある:再現率よりも適合率の方が高い分類器では、陽性に
分類する事例が少なすぎるので、そのことを頭に入れて調整すれば性能を上げられるはずだ。逆に適
合率よりも再現率の方が高い場合には、陽性の宣言を控え目にすれば、F 値が上がる。正確度と再現
率がかけ離れている場合は、分類器のバランスが取れていない。そこで、どちらが悪影響を及ぼして ...