7章データサイエンティスト自身のバイアス
前の章では、バイアスにまつわる最悪の事態、すなわち実社会にあまりにも深く根付いているバイアスの場合、反論の材料となるデータの収集さえ不可能な状況もあり得ることを紹介しました。続くこの章ではデータサイエンティスト自身のバイアスが招くアルゴリズミックバイアスを詳しく見ていきます。多くの場合、アルゴリズムにバイアスが忍び込むのを予防するためのデータが必要なのですが、なぜかデータサイエンティスト自身がこの種のデータの収集を怠ってしまうことがあるのです。
「4章 モデルの開発」でデータサイエンティストがアルゴリズム(モデル)を開発する際には、多数の工程をこなし、そのそれぞれで数多くの判断を下していかなければならないことを紹介しました。こうした判断がアルゴリズミックバイアスを誘発してしまうことがありますが、その主因として次の3つがあげられます。
- 確証バイアス——確証バイアス(自らの願望・信念の「確証」を得ようとしてしまう傾向)が作用することによって、データサイエンティスト自身のバイアスをモデルが「コピー」してしまいます
- 自我消耗——自我消耗(心的エネルギーが低下して、自分をコントロールする能力が弱まった状態)に陥り集中が途切れたデータサイエンティストはバイアスを回避する機会を逸してしまいます
- 自信過剰——自信過剰のバイアスが作用すると、データサイエンティストは、開発中のモデルにバイアスを示唆するものがあっても、これをはねつけてしまいます
7.1 データサイエンティストの確証バイアスの影響
「何か知りたいことがあったら訊け」——これは社会通念のひとつですが、データに関してもこれが当てはまる場合があります。かなり有力と思える仮説を立てられたとしても、さらにデータを詳しく検討して他の選択肢がないか自分から模索しない限り、データは何も教えてくれません。 ...
Get AIの心理学 ―アルゴリズミックバイアスとの闘い方を通して学ぶ ビジネスパーソンとエンジニアのための機械学習入門 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.