3章word2vec

判断材料がないのに、推論するのは禁物だ。

—— コナン・ドイル 『シャーロック・ホームズの冒険(ボヘミアの醜聞)』

前章から引き続き、本章のテーマも単語の分散表現です。前章では、「カウントベースの手法」によって単語の分散表現を得ました。本章では、「カウントベースの手法」に代わる強力な手法として「推論ベースの手法」を見ていきます。

「推論ベースの手法」は、その名前が示すとおり、推論をする手法です。もちろん、その推論にはニューラルネットワークが使えます。そして、ここで有名なword2vecが登場します。本章では、word2vecの仕組みをじっくりと時間をかけて見ていき、それを実装することで理解を確かなものとします。

本章の目標は、“シンプル”なword2vecを実装することです。このシンプルなword2vecでは、処理効率は犠牲にして、分かりやすさを優先しています。そのため、大きなデータセットは扱えませんが、小さなデータセットであれば問題なく処理できます。次章では、本章のシンプルなword2vecにいくつかの改良を加え、“本物”のword2vecを完成させます。それでは、推論ベースの手法へ、word2vecの世界へ進みましょう!

3.1 推論ベースの手法とニューラルネットワーク

単語をベクトルで表す研究は、これまで盛んに行われてきました。その中でも成功を収めた手法を見ていくと、それらは大きく2つに分けられます。ひとつは「カウントベースの手法」、もうひとつは「推論ベースの手法」です。単語の意味を獲得するためのアプローチは両者で大きく異なりますが、その背景には両者ともに分布仮説があります。

ここでは、カウントベースの手法の問題点を指摘し、それに代わる推論ベースの手法の利点を大きな視点で説明します。そして、word2vecへの下準備を行うために、ニューラルネットワークで「単語」を処理する例を見ていきます。 ...

Get ゼロから作るDeep Learning ❷ ―自然言語処理編 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.