4章機械学習を利用しない検索ランキング改善
情勢変化の激しいインターネット業界では、サービス改善のサイクルを素早く回すことがとても重要です。一方、既存サービスに機械学習を初めて導入する際には、多くの検証や追加実装が必要です。検索ランキング改善においても、1から機械学習を利用した検索ランキングを実現するには、それ相応の時間と工数を要します。そのため本書では、機械学習による検索ランキング改善の前に、機械学習を利用しない検索ランキングの改善 に取り組むことをお勧めしています。
機械学習を利用した検索ランキング改善の前に、機械学習を利用しない検索ランキング改善を行うことには、次のメリットがあります。
- 実装や検証に必要な要素を減らすことで、改善サイクルを素早く回せる。
- 同様に、不具合が発生したときに問題の切り分けが容易になる。
- 実装する、検索ランキング改善に有用な数値を検索エンジンに連携する機能は、機械学習モデルの特徴量としても利用でき、継続的な機械学習検索ランキングの改善につながる。
「1章 検索の基本」で説明したように、検索エンジンはユーザーの検索意図に対して文書のスコアを計算し、文書をスコアの降順に並べ替えることによってランキングを実現します。ランキングロジックとはこのスコアをどのように計算するかを表す関数と見なせます。本章では、機械学習を利用しないランキングロジックの1つである「BM25特徴量と他の1つの特徴量の重み付き和」を紹介し、検索システムへ実装する方法について説明します。
4.1 ランキングロジック: BM25特徴量と他の1つの特徴量の重み付き和
SolrやElasticsearchは、デフォルト設定では、BM25の値をランキングのスコアとして使用します。このBM25の計算には検索条件が考慮されます。具体的には、文書の情報として検索対象フィールドのみが利用され、さらに検索条件にマッチしない文書のBM25の値はゼロとなります。 ...
Get 機械学習による検索ランキング改善ガイド ―技術解説とハンズオンで学ぶ機械学習ランキングモデルの導入と改善 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.