4章モデルの開発
前の章ではアルゴリズムがどう機能するかを紹介しましたが、この章ではそのアルゴリズムがどのように開発されるのかを概説します。これを知れば、バイアスがアルゴリズムに忍び込むメカニズムの理解が進むはずです。ベテランのデータサイエンティストもこの章を読んで、これから解説を進めていく中で頻繁に言及する私なりの考え方や用語を把握しておいていただくとよいかもしれません。
その「用語」についてですが、実世界での機械学習の応用が進むにつれて、大きく様変わりしました†1。そのため、残念なことにあらゆる世代のデータサイエンティストに理解していただける本を書くのが至難の業となってしまいました(少なくとも「データサイエンティスト」という新しい職名は、大昔の2010年頃に使われていた「モデル開発者」や「モデラー」よりはるかにシャレてはいますが……)。
この章では全体に「昔ながらの」用語を使っています。これは主として、統計は「ほんのちょっとかじっただけ」の、他分野の方々のためです。一般に知られた「昔ながらの」用語を使えば、そうした方々も比較的容易に「点と点をつなぎ合わせられる」と考えたのです。
[†1] たとえばobservationがinstanceに、dependent variableがlabelに、predictive variableがfeatureに変わりました。
さて、読者の中には、この章のタイトルがなぜ「アルゴリズムの開発」ではなく「モデルの開発」なのかと首を傾げている方がいるかもしれません。データサイエンティストが、ある文脈で特定の結果を予測するための数式(たとえば、ある銀行が融資先であるカナダの複数の小規模小売業者が債務不履行に陥る確率を予測する式)のパラメータを推定するような時には、この結果を「モデル」と呼ぶのが普通です。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access