付録Aベクトル検索と機械学習

「1.1 検索技術の基本と検索エンジン」でも触れましたが、本書でこれまで扱ってきた全文検索という分野に並ぶものとして、ベクトル検索という分野があります。ベクトル検索は近年、急速に利用が広まっている分野であり、検索エンジンを扱っている読者であれば導入を検討する技術だと思います。一方、ベクトル検索の説明は、これまでの説明とは視点を変えたものになります。本書では、これらの点を考慮して、付録としてベクトル検索を取り上げることとしました。本付録では、ベクトル検索のアイデアや利用例、メリットとデメリット、実装、全文検索とベクトル検索の組み合わせ、近似最近傍探索、そしてベクトル検索エンジンについて概観します。

A.1 Bag-of-Wordsモデル

ベクトル検索について説明する前に、まず本書でこれまで扱ってきた特徴量について全文検索という分野でのより詳細な位置付けを説明します。

本書で扱ってきた特徴量は、検索キーワードや文書などをすべてBag-of-wordsと呼ばれるモデルに当てはめて計算しています。Bag-of-wordsモデルでは、検索キーワードや文書を単語の多重集合(bag)と見なします。集合とは要素の集まりという意味で、多重集合とは「同じ要素が重複して含まれる場合のある集合」を指しています。

[警告]

ここでいう「モデル」とは、これまで説明してきた「検索ランキングモデル」とは異なる意味の言葉なので注意してください。検索ランキングモデルが対象とするのは、基本的には検索キーワードと文書のペアです。出力はそれらの関連性を表す数値(スコア)でした。Bag-of-wordsモデルが対象とするのは、検索キーワードや文書そのものです。出力は単語の多重集合だと考えられます。 ...

Get 機械学習による検索ランキング改善ガイド ―技術解説とハンズオンで学ぶ機械学習ランキングモデルの導入と改善 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.