9章自然言語の読み書き

これまで、扱ってきたデータは、一般に数字や数え上げられる値の形式でした。ほとんどの場合、事実として受け取り、何の分析もせずにデータを格納して来ました。本章では、英語†1という難しいテーマに取り組んでみます。

[†1] 原注:本章で述べる多くの技法は、ほとんどの言語に適用可能だが、現時点では、英語だけの自然言語処理に焦点を絞っている。例えば、PythonのNLTKのようなツールは、英語を主対象としている。インターネットの52%はいまだに英語(http://w3techs.com/technologies/overview/content_language/allによれば、次はロシア語だが6.4%にすぎない)である。しかし、将来はわからない。インターネットにおける英語の優勢は、将来間違いなく変わるだろうし、この数年で変更の必要があるだろう。

Google画像検索で「cute kitten」と入力したときに、Googleはどのようにして、目的のものがわかるのでしょうか。可愛い猫の画像に貼り付いているテキストからです。YouTubeの検索バーに「dead parrot」とタイプしたときに、Monty Pythonスケッチが表示されるのはどのようにしているのでしょうか。アップロードされたビデオに添付されたタイトルと説明文とからです。

実のところ、「deceased bird monty python」とタイプしても、そのページそのものには、「deceased」や「bird」という単語は出てこないのに、すぐに同じ「Dead Parrot」スケッチを取ってくることができます。Googleは、「hot dog」が食べ物で、「boiling puppy」がまったく違うものであることもわかっています ...

Get PythonによるWebスクレイピング 第2版 now with O’Reilly online learning.

O’Reilly members experience live online training, plus books, videos, and digital content from 200+ publishers.