8章機械学習のモデルを解釈する
本章では、機械学習によって獲得したモデルのパラメータを調べることによって、どのような特徴量が目的変数に対してどのように寄与していたのかを調べます。
ビジネスの現場では、予測結果の解釈を上司やクライアント、利用者に説明することがよくあります。なぜこのような予測になったのか、その予測にはどのような特徴量が寄与していたのか、どの特徴量とどの特徴量を組み合わせると良く予測できるのかといった具合です。このような説明を踏まえて、予測の根拠と人間の直感と合致しているかが判断され、予測モデルの妥当性が評価されます。
こういった考え方はExplainable AI(説明可能なAI)として研究が盛んな分野のひとつです。この分野の有名な論文のひとつに、Grad-CAM[Selvaraju19]というものあります。この論文では画像の分類モデルに対して、画像のどの部分が分類に寄与したかを可視化することで、分類モデルが正しく機能しているかを示すことができると提案しています。
論文中の事例では、偏ったデータセットを用いると女性の医師を看護師であると誤認識してしまう、という実験結果が紹介されています。この実験ではインターネット上から医師と看護師の画像を収集し、それらを分類するモデルを作成しました。その結果82%の精度で正しく分類できるようになりました。そして、どこが分類に寄与していたのかを可視化すると、人の顔と髪に着目していたということがわかりました。これはどういうことでしょうか?インターネット上から収集してきた医師と看護師の画像は、その職業における男女比をある程度反映しており、医師では男性が78%、看護師では女性が93%という非常に偏ったものだったのです1。つまり分類器は画像が男性か女性かを見分けるように学習しており、それを男性であれば医師、女性であれば看護師として出力していたわけです。教師データの男女比を是正し学習を行いったところ、機械学習は聴診器や白衣、半袖(医師の白衣は長袖、看護師の白衣は半袖)といった部位に着目するようになり、正しい予測が行えるようになったようです。 ...
Get 仕事ではじめる機械学習 第2版 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.