
196 7 章 数理モデル
デルの中のさまざまな問題が隠されてしまう。実装やデータの正規化にバグがあり、本来よりも低い性能し
か得られていないかどうかがわからなくなってしまう。訓練データとテストデータが混ざってしまい、テス
トでは実際よりもはるかに高い成績を出す場合もある。
起こっていることを本当の意味で知るためには、スニッフテストをする必要がある。私の個人的なスニッ
フテストは、モデルが正解を出した少数の事例とモデルが間違った少数の事例をじっくりと見るというもの
であ
る。目標は、モデルがなぜその結果にたどり着いたかを理解することだ。できれば、「名前」がわかっ
ているレコード、つまり、探索的なデータ分析や専門分野の知識から正解が何かについて勘が利く事例が
よい。
今後の課題
モデ
ルの評価統計量しか見ないデータサイエンティストが多すぎる。自分が犯した誤りが正当化
できるものか、深刻なものか、それほど重大ではないものかを把握していなければ、優れたデー
タサイエンティストとは言えない。
モデルを評価して得られた正確度の値に違和感があるかどうかも良い手がかりになる。予想よりも性能が
高いか、それとも低いか。人間の力で判断しなければならないものとして、自分ならそのタスクでどれくら
い正確な答えを出せると思うか。
これと関連しているが、モデルの性能があと少し高ければどれくらいよいかという感覚をつかむことも大
切だ。単語を正しく分類する NLP タスクで、95 % の正確度だと、2, 3 文に 1 つの割合で誤りを犯す。これ ...