7章質問応答

皆さんが研究者、アナリスト、データサイエンティストのいずれであろうと、探している情報を見つけるために膨大な量の文書をかき分けることがあるはずです。さらに悪いことに、GoogleやBingは、もっと良い検索方法があることを常に教えてくれるのです。たとえば、Googleで「When did Marie Curie win her first Nobel Prize?(キュリー夫人が初めてノーベル賞を受賞したのはいつですか)」と検索すると図7-1のように「1903年」という正しい回答がすぐに表示されます。

Googleの検索クエリとそれに対応する回答スニペット

図7-1 Googleの検索クエリとそれに対応する回答スニペット

この例では、Googleはまずクエリに関連する約319,000の文書を検索し、その後、対応する文章とWebページから回答となるスニペットを抽出する処理をしています。このようなスニペットがなぜ有用なのかを理解するのは、難しいことではありません。たとえば、「ギターのチューニングはどれが一番良いのか?」といった、よりトリッキーな質問を検索する場合。Googleは回答を示さず、代わりに検索エンジンが返したWebページから自分で探す必要があります†1

[†1] とはいえ、この場合、ギターのチューニングはドロップCが一番良いのは誰もが認めるところです。

この技術を支える一般的なアプローチは、質問応答(QA)と呼ばれています。質問応答にはさまざまな種類がありますが、もっとも一般的なのは抽出型質問応答です。これは、回答が文書内のスパン(範囲)として特定できる質問を扱います。ここで言う文書には、Webページや契約書、ニュース記事などが含まれます。抽出型質問応答は、まず関連する文書を検索し、そこから回答を抽出するという2段階のプロセスから構成されています。このようなプロセスは、セマンティック検索エンジン、知的アシスタント、情報抽出器など、現代の多くの質問応答システムの基礎になっています。本章では、このプロセスを応用し、eコマースサイトのカスタマーレビューを用いて、消費者の持つ商品に関する質問に答える問題に取り組みます。本章では、カスタマーレビューが質問応答に使える情報をたくさん含みつつも扱うのが難しいことを理解し、その過程で、Transformersがテキストから意味を抽出できる強力な ...

Get 機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.