
354 11 章 機械学習
図 11 -17 名
前空間のアジア系のクラスタには、文化的に異なるグループの 2 つのクラスタが含まれてい
る。左側の拡大図は中国/南アジア系の姓、右側の拡大図はインド系の姓のクラスタを示してい
る。
「Thor」(トール)と「Rabinowitz」(ラビノウィッツ)が結び付いている例はほとんどないので、これらの
トークンは埋め込み空間の中で、離れた場所に配置される。しかし、ある人口グループでよく見られる名の
トークンは、同じ人口グループの姓のトークンの近くに配置される。それは個々のアドレス帳でも同じよう
な結び付きが見られるからである。そのため、特定の名のトークン x に最も近い姓のトークン y は文化的
に近いはずであり、xy はもっともらしい名前の良い候補になる。
今回の教訓は、順序が意味を持つシンボルの長いシーケンスに潜む構造をたやすく特定する、単語埋め込
みの威力である。word2vec のようなプログラムは、遊んでみるととても面白いし、驚くほど簡単に使える。
手元のデータで試せば、そのデータに思いがけない性質が隠れていることが明らかになるだろう。
11.8 さらなる探求のために
機械学習の優れた入門書としては、Bishop [Bis07] と Friedman et al. [FHT01] が挙げられる。ディープ
ラーニングは機械学習で今最も面白い分野で、Goodfellow, Bengio, and Courville [GBC16] が最も包括的に
扱っている。 ...