
11.5 学習の度合い 343
もはるかに少なくて済むので、評価用に実際にラベルを付けた十分な数のデータを用意すればよい。分類器
が分類を誤ったデータ例、つまり、公表された文であっても「正しくない」ラベルが付けられたものや、ラ
ンダムな置き換えをしたのにテストに合格した文書を人間が精査することで、分類器の精度が上がる。
11.5.4 特徴エンジニアリング
特徴エンジニアリングとは、機械学習アルゴリズムが与えられた仕事を簡単に進められるように専門分野
の知識を利用することである。この節で取り上げた学習法の分類で言えば、特徴エンジニアリングは教師あ
り学
習の重要な一部と考えられる。ただし、学習の対象はターゲットのラベル y
i
ではなく、特徴ベクトル
x
i
である。
大切なのは、モデルが適切に使えるような形で、特徴をモデルに与えることである。専門分野特有の知識
を学習するのではなく、データに組み込むのはデータサイエンティストでない人から見たらカンニングのよ
うに感じるかもしれない。しかし、データサイエンティストは、モデルが簡単に学習できないことが実際に
あり、そういった知識は特徴セットに明示的に組み込んでおいた方がよいことを知っている。
美術品のオークションで入札価格を予測するモデルについて考えてみよう。オークション会社は、落札者
の支払う手数料によって利益を得ている。手数料の割合は、オークション会社によって異なるが、かなり高
額になることもある。落札者が支払う落札価格は、所有者に支払われる美術品の金額と、オークション会社 ...