8章データがもたらすバイアス
コンピュータ業界に「garbage in, garbage out」という金言があります。超高性能のコンピュータでも「無意味なデータ」を入力されれば「無意味な結果」を返す、という意味で、これはバイアスの場合にも当てはまります。この章では、データの不備がアルゴリズムにバイアスをもたらすさまざまな経緯を見ていきましょう。この種の問題には、データサイエンティストが対処して解決できるものがある一方で、(保険契約の申し込みを処理する保険業者や、ウェブサイトを管理するプログラマーなど)データを生み出す人が対処しなければならないものもあります。
8.1 データがもたらすバイアスの概要
データがアルゴリズムにバイアスをもたらす経緯は少なくとも6種類はあり、きちんと区別しておくことが大切です。6種類それぞれが、アルゴリズムが記述しようとしている実世界の業務プロセス(またはモデル開発のプロセス)の異なる段階で起こり、当然ながら予防や排除の方法も異なるためです。
まずは情報を収集するプロセス(ならびに、その情報を使ってモデリングのためのデータを作成するプロセス)でバイアスを招いてしまうケースで、その原因は次の2種類に分類できます。
- A-1 主観的・定性的データがもたらすバイアス——レストランの評価など、人間が作り出す主観的で定性的なデータには自然とバイアスがかかります。この問題の特徴は(たとえば評価をする際のプロセスなど)データを生み出す方法が、それぞれに固有のバイアスを生む恐れがある、という点です
- A-2 表面的には定量的に見えるデータがもたらすバイアス——上の主観的な定性的データと同様のプロセスで生成されたデータに定量的な数値が含まれているケースです。たとえば申請書の「 ...
Get AIの心理学 ―アルゴリズミックバイアスとの闘い方を通して学ぶ ビジネスパーソンとエンジニアのための機械学習入門 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.