
202 7 章 数理モデル
ROC 曲線は右上隅にたどり着くまで右に進んでいく。
A
UC(Area Under the ROC Curve)は、分類器を定義するスコアリング関数の品質を示す統計指標として
よく使われる。最良の ROC 曲線の場合、AUC は 100% × 100% → 1 である。モンキーの三角形の AUC は
1/2 である。面積が 1 に近ければ近いほど、分類関数は優れている。
7.4.3 マルチクラス分類器の評価
分類問題の多くはラベルが 2 つだけではない。つまり、3 つ以上のクラスから正しいものを判断しなけれ
ばならない。Google News には、アメリカのニュースと世界のニュースに加え、ビジネス、エンターテイメ
ント、スポーツ、健康、科学、テクノロジーのセクションがある。そのため、このサイトの振る舞いを規定
する記事分類器は、8 種類のクラスからいずれかを選んで個々の記事に割り当てなければならない。
クラスのラベルが増えれば増えるほど、正しい分類は難しくなる。d 種類のラベルを持つ分類でモンキー
に期待できる正確度は 1/d であり、クラスの複雑度が上がると正確度は急激に落ちていく。
そのため、マルチクラス分類器の評価は難しい。正確度が低くてがっかりしてしまうのだ。そこで、k ≧ 1
といった特定の値までの正確度を一般化したトップ k 成功率の方が統計指標として優れている。これは、上
位 k 種類のラベル候補の中にどれくらいの頻度で正しいラベルが含まれていたかを示す指標である。 ...