
7.5 評価システム 207
データセット 手法
平均
絶対誤差
中央値
絶対誤差
正確度
データセット 手法
平均
絶対誤差
中央値
絶対誤差
正確度
図 7 -10 文
書作成年代判定システムの評価システムの出力。モンキー(左)と単純ベイズ分類器(右)で
比較できるようになっている
中央値絶対誤差(MedAE)、正確度(Acc、作成年を正しく当てられた頻度)だけである。これだけ
でも、ニュースの方がフィクションよりも判定が簡単なこと、我々のモデルがモンキーよりもかなり
優れていること、作成年の的中率(正確度で計測される)はまだ小さすぎて悩むほどのレベルにさえ
なっていないことがわかる。
この評価結果は、とても見る気にならないような数値をいくつも表示して見る者を圧倒することなく、作
業の現状を知るために必要な情報を与えてくれる。
7.5.1 評価のためのデータの健全性
評価はごまかしのないものでなければ意味がない。訓練データ、検証データ、テストデータを区別せず、
正しくモデルを検証しないと、正しい評価ができない。
予測モデルを構築するという目的でデータセットを入手したときには、まず入力を次の 3 つの部分に分割
する。
• 訓練データ:自由に操作してかまわないデータである。専門分野の学習やモデルのパラメータ設定の
ために使う。一般に、データセット全体の約 60 % を訓練用にまわす。
• 検証データ:データセット全体の 20 % ほどで、モデルの性能を評価するときに使う。一般に、モデ
ル開発では、複数の機械学習手法や複数のパラメータ設定を試す。そのため、テストをすれば、異な ...