9章自然言語の読み書き
これまで、扱ってきたデータは、一般に数字や数え上げられる値の形式でした。ほとんどの場合、事実として受け取り、何の分析もせずにデータを格納して来ました。本章では、英語†1という難しいテーマに取り組んでみます。
[†1] 原注:本章で述べる多くの技法は、ほとんどの言語に適用可能だが、現時点では、英語だけの自然言語処理に焦点を絞っている。例えば、PythonのNLTKのようなツールは、英語を主対象としている。インターネットの52%はいまだに英語(http://w3techs.com/technologies/overview/content_language/allによれば、次はロシア語だが6.4%にすぎない)である。しかし、将来はわからない。インターネットにおける英語の優勢は、将来間違いなく変わるだろうし、この数年で変更の必要があるだろう。
Google画像検索で「cute kitten」と入力したときに、Googleはどのようにして、目的のものがわかるのでしょうか。可愛い猫の画像に貼り付いているテキストからです。YouTubeの検索バーに「dead parrot」とタイプしたときに、Monty Pythonスケッチが表示されるのはどのようにしているのでしょうか。アップロードされたビデオに添付されたタイトルと説明文とからです。
実のところ、「deceased bird monty python」とタイプしても、そのページそのものには、「deceased」や「bird」という単語は出てこないのに、すぐに同じ「Dead Parrot」スケッチを取ってくることができます。Googleは、「hot dog」が食べ物で、「boiling puppy」がまったく違うものであることもわかっています ...
Get PythonによるWebスクレイピング 第2版 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.