高リスク分野のための機械学習 ―責任あるAI構築のための実践アプローチ
by Patrick Hall, James Curtis, Parul Pandey, 高江洲 勲, 伊東 道明, 園田 道夫, 北條 孝佳, 石川 太一
8章XGBoostモデルの選択とデバッグ
データサイエンティストが実世界でモデルの性能を測定する方法は、多くの場合において不十分である。Googleをはじめとする研究機関に所属する40名の機械学習研究者によって執筆された論文「Underspecification Presents Challenges for Credibility in Modern Machine Learning」(https://oreil.ly/27jFT)によれば、「機械学習モデルは実世界のドメインで使用した際に、予想外に悪い振る舞いを示すことがよくある」とされている。この根本的な問題は、たとえそれが極めて複雑で高リスクな使用用途であっても、研究論文のためにモデル性能を評価する際、静的なテストデータに基づいた単純な評価指標に依存してしまっている点にある。たとえば、精度やAUCのような測定値は、公平性、プライバシー、セキュリティ、安定性といった重要な要素については、ほとんど何も語らない。静的なテストデータにおける予測精度や誤差といった評価指標は、あくまでも実世界の性能と相関があるに過ぎず、現実環境において確実に優れた挙動を示すことを保証するものではない。このような評価に依存する限り、実運用における信頼性やリスク管理の観点からは、大きな盲点を抱えることとなる。平たく言えば、我々が機械学習を活用する目的は、実世界において適切な意思決定を下すことである。ゆえに、我々が関心を持つべきは、モデルとしての性能指標そのものではなく、アプリケーションとしての性能、すなわち現実における有用性と信頼性であるべきである。
本章では、従来のモデル評価の枠を超え、より良く一般化するモデルを選択し、モデルを限界まで押し上げることで、隠れた問題や障害モードを発見するための手法をいくつか紹介する。まずは、基本的な概念の再確認から始め、モデル選定において有効な一連の手順を提示する。その後、実世界での応用を適切にシミュレートするためのモデル・デバッグ手法や、残差分析を活用してモデルの誤りを明らかにする感度分析およびテストの手法に焦点を当てる。モデル・デバッグにおける最も重要な目的は、実運用におけるモデル性能の信頼性を高めることであるが、これにより結果としてモデルの透明性も向上させることが可能となる。本章で使用するコード例は、該当のリポジトリ( ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access