第4章. 知識を加える:シンコペーション
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
この章のパターンは、第3章で説明したRAGの基礎の上に構築されている(図3-1を参照)。すべてのRAGユースケースの根底にある基本概念を学ぶために、この章の前に第3章を読むことを推奨する。可能性を理解したら、ユースケースの特徴に基づいてRAGパイプラインの構成要素をどのように実装するかを選択できる。この章では、それをカバーする。
パターン9:インデックスを意識した検索
、チャンクがどのようなテキストを含み、どのようにインデックスされたかを知る利点を活用することで、ベーシックRAG(パターン6)とセマンティックインデックス(パターン7)を改善することができる。このパターンのどの構成要素を取り入れるかは、コンテンツの種類に依存する。
問題点
RAGは、(1)質問と類似性のあるチャンクを知識ベースから検索できる、(2)検索されたチャンクを使って答えを導き出せる、という仮定 に基づいている。しかし、質問が知識ベースに存在しない場合、知識ベースがユーザがクエリするものとは異なる技術的な言語を使用している場合、答えがチャンクの中に隠された細かい詳細である場合、答えがいくつかのチャンクの全体的な解釈を含む場合など、いくつかの状況では最初の仮定が成立しない。
ナレッジベースにない質問
FAQ、サポートチケット、またはディスカッションフォーラムにインデックスを作成していない限り、質問自体はナレッジベースに表示されない。たとえば、このような質問をするとする:
マドリードから電車で2時間以内の歴史的観光スポットは?
この質問に完全に一致するナレッジベースはないかもしれない。その代わりに、ナレッジベースには次のようなチャンクが含まれる:1
トレドは、主にイベリア半島の中央部、テージョ川の右岸(北岸)に位置し、川のカーブに寄り添っている。歴史上、キリスト教、イスラム教、ユダヤ教の文化的影響を受けたことから、「3つの文化の街」として知られている。
そして、別のチャンクにはこう書かれているかもしれない:
2005年11月15日に開通したマドリードへの高速鉄道の工事が始まった。
基本的なRAGアプローチも、セマンティック・インデックスのバリエーションも、これらのチャンクを検索しない。なぜなら、チャンクはキーワードも意味も質問と共有していないからである。
知識ベースはユーザのクエリとは異なる技術的な言葉を使う
もう一つの問題は、ユーザが必ずしも 、チャンク内で使われている用語を知っていたり、使っていたりしないことである。例えば、ユーザは "イスラムの宮殿 "について質問するかもしれないが、チャンクはアルハンブラ宮殿を "ナスリッドの要塞 "と呼ぶかもしれない。これらは同義語ではないので、意味的一致は役に立たない。
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access