19章データのX線検査

前の章で予告したように、モデル開発におけるバイアスの回避法のうち、「サブステップ2-4 データ品質の評価」に関わるものについて、この章で詳しく見ていきましょう。データの品質をどのように確保すればよいのか、具体的な方法を紹介していきます。

この章では、データに潜在的に存在するアルゴリズミックバイアスの「たね」の探知方法について掘り下げます。すでに前の章までの説明で明らかだと思いますが、私たちの「敵」は千差万別なので、データを詳しく調べてそれこそ千差万別な潜在的問題を探らなければなりません。ちょうど年に一度の健康診断で、血液や尿の検査以外にもさまざまな臓器の検査をするようなものです。

この章で私が目指すのは、6つの効率的で割と簡単な検査(ステップ)を提案して種々の分析法を紹介し、皆さんに「1,000の目と1,000の耳」をもっていただくことです。どの分析法でも(X線検査で骨折部位や内臓の損傷、誤飲した異物などが映し出されるように)「要注意領域」が鮮やかな赤で示されたマップが出来上がり、皆さんはそれを複数手にすることになります。こうなれば、有意な異常を漏れなくチェックし、(状況コンテクストに関する自分の知見と、この本でこれまでに学んだこと、とくに直前の章で学んだことに基づいて)懸念材料があるか否かを判断し、「ある」場合は最良のバイアス対策を練ることも可能です。

上記6つの検査は極力系統的システマティックにしようと力を尽くしましたが、このプロセスが反復的イテラティブなものである点は強調しておく必要があります。とくに予測変数(独立変数)の数が多い場合、まずは一部の分析法を使ってざっと調べ、最終的なモデルで使う候補として変数を選び出せたら、再度特定の分析法を使ってそれをより詳細に調べるべきかもしれません(たとえば外れ値や特定の欠損値をさらに詳しく調べてみる、など)。中でも、皆さんの専門知識に依存する「バイアス探知レーダー」に何か怪しい「影」が映ったら、とくにその必要があります。 ...

Get AIの心理学 ―アルゴリズミックバイアスとの闘い方を通して学ぶ ビジネスパーソンとエンジニアのための機械学習入門 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.