book

RAG with Python クックブック (Japanese Edition)

Name: RAG with Python クックブック (Japanese Edition)
Author: Dominik Polzer
ISBN: 0642572383589

by Dominik Polzer

May 2026

Intermediate

378 pages

5h 34m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
本書の対象読者本書で学べる内容と構成本書で使用している表記規則コード例の使い方O’Reilly Online Learning問い合わせ先謝辞
1. RAGの始め方
1.1.組織にとって価値の高い RAG のユースケースを特定する1.2. IDEの選択とコーディングエージェントのセットアップ1.3. VS CodeでのJupyter Notebookの始め方1.4. .envファイルを使用したシークレットとAPIキーの保存1.5. 初めてのRAGアプリの構築1.6.RAGアプリケーション向けのフレームワークとライブラリの選択1.7. 書籍リポジトリ内のコード例の実行
2. 基盤モデル
2.1. 適切なプロンプトテンプレートの定義2.2. タスクに適した言語モデルの選択2.3. OpenAI API を使用したコンテンツ生成2.4. Google Geminiモデルを用いたコンテンツ生成2.5. Anthropic API を使用したコンテンツ生成2.6. Ollama を使用したオープンソースモデルのローカル実行2.7.OpenAI SDKとPydanticを用いた構造化出力の作成
3. データのロード
3.1. PythonでのWordファイルの読み込み3.2. PDFファイルの読み込み3.3.ExcelおよびCSVファイルからの表形式データの読み込みと処理3.4. PostgreSQLデータベースからの構造化データの読み込み3.5. 音声認識モデルを用いた音声ファイルの読み込み3.6.Tesseract OCRを使用した画像および PDF からのテキスト抽出3.7. マルチモーダルモデルを用いた画像からのテキスト抽出3.8. マルチモーダルモデルを用いた画像のテキスト説明の生成3.9. マルチモーダルモデルを用いた埋め込み表のテキスト要約生成3.10. マルチモダリティコンテンツを含むPDFの解析3.11. 音声認識およびマルチモーダルモデルを用いた動画の読み込み
4. データの前処理
4.1. メタデータフィルタリングを可能にするためのメタデータの追加4.2. 略語や専門用語の置換によるデータ品質の向上4.3. テキストチャンクに対する仮定的な質問を作成することで検索精度を向上させる4.4. 文字単位の分割による文書の分割4.5. 再帰的テキスト分割ツールによる文書の分割4.6. 文書を意識した分割による文書のチャンク化4.7. 意味論を考慮したチャンカーによるテキストの分割4.8. エージェントを考慮したチャンカーによるテキストの分割
5. 埋め込み
5.1. テキストチャンクの言語的意味を数値表現にマッピングする5.2. 次元削減テクニックを用いたテキストチャンク間の意味関係の可視化5.3. 埋め込み間の距離の計算5.4. 適切な埋め込みモデルの選択5.5. CLIPを用いた画像およびテキストの埋め込み生成5.6. 埋め込みを用いたテキスト分類の実施5.7.ハイブリッド検索アプローチによる検索結果の改善
6. ベクトルデータベースと類似性検索
6.1. 適切なベクトルデータベースの選択6.2. FAISSを用いた埋め込みの保存と検索6.3. Chromaベクトルデータベースでの埋め込みの保存と操作6.4.pgvector拡張機能を用いたPostgreSQLへの埋め込みの保存6.5. PostgreSQLでの類似性検索の実行6.6. インデックス作成テクニックを用いたPostgreSQLでのベクトル検索の高速化6.7. PostgreSQL での検索精度向上のためのキーワード検索と類似度検索の組み合わせ
7. 検索
7.1. PostgreSQLにおけるメタデータフィルタリングによるクエリ結果の最適化7.2. HyDE による検索精度の向上7.3. マルチクエリ検索による検索結果の改善7.4. クエリルーティングシステムの設計による複雑なリクエストへの対応7.5. 自動マージ型検索エンジンの設計による検索文書の品質向上7.6. 文単位ウィンドウ検索器を用いた、より完全なテキストチャンクの検索7.7.再ランク付けメソッドによる検索の関連性の向上7.8. 複雑なクエリを複数のサブクエリに分解する
8. エージェント型RAG
8.1. Pythonによるカスタムツールの設計8.2. マルチエージェントシステムにおけるワークフローパターンの活用8.3. エージェント型フレームワークの選択8.4. 関数呼び出しによるエージェントシステムの構築8.5. asyncio によるエージェントの高速化8.6. OpenAIのAgents SDKとChromaを用いた販売交渉エージェントの構築8.7. MCPツールによるエージェント機能の拡張8.8. LangGraphを用いたエージェントシステムの構築
9. グラフRAG
9.1. 最初のNeo4jナレッジグラフを作成し、ドキュメントのテキストを投入する9.2. 構造化データを用いたナレッジグラフの拡張9.3. 初めてのCypherクエリの作成9.4.Neo4jナレッジグラフでのセマンティック検索の実装9.5. RAGシステム向けにナレッジグラフを最適化する

10. RAGシステムの評価
10.1.RAGシステムに適した評価基準の選定10.2. 人間によるRAGシステムの評価10.3. 自動化テスト用の合成データの作成10.4.コンテキスト精度@kの計算によるリトリーバー段階の評価10.5.審査員としてのLLMを用いた生成時の忠実度の評価10.6.RAGシステムのレスポンスの関連の評価
11. RAG Webアプリ
11.1. 初めてのStreamlitアプリの構築11.2. Streamlit を使ったチャットボットアプリの構築11.3. チャットボットへのPDF解析機能の追加11.4. RAGアプリをSQLデータベースに接続する11.5. DockerとAWSを使用したStreamlitアプリのデプロイ
目次
著者紹介

Content preview from RAG with Python クックブック (Japanese Edition)

第4章データ準備

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

RAGシステムに長文を入力する際、前処理によって文書は小さなチャンクに分割される。各チャンクは、その意味的意味を捉えた埋め込みベクトルに変換される。検索時には、システムはこれらのベクトル間の距離を計算して類似性を測定し、関連性の高いテキストを見つける。

この手法は、各チャンクが正確に1つの情報を含み、独立して理解できる場合に最も効果を発揮する。重要な課題は、周囲のコンテキストに依存せずに単独で成立するチャンクを準備することだ。堅牢なパイプラインは、生テキストをクリーニングし、適切な点で分割して意味のあるチャンクを生成する。

図4-1は、における一般的な前処理テクニックを示している：

テキストの準備: 略語を置き換え、テキストをクリーニングする。
メタデータの収集: ページ番号、ソース、著者を保存する。
テキストの分割: 文字単位、再帰的、意味的、またはエージェントによるチャンキングを適用する。

目標は、周囲のコンテキストを必要としない、明確で曖昧さのないチャンクを生成することだ。

Diagram illustrating the simplified RAG indexing pipeline, showing stages of processing, chunking, and embedding model.

各チャンクに有用なメタデータを保存することで、検索時のフィルタリングが可能になり、プロセスの高速化と精度向上につながる。

本書のGitHubリポジトリで、この章のすべてのコード例を確認できる。

4.1 メタデータフィルタリングを可能にするメタデータの追加

課題

ベクトルストア内のテキストチャンクと共にメタデータを保存し、検索時にメタデータによるフィルタリングを適用できるようにしたい。

解決策

ドキュメントから既存のメタデータを抽出し、追加のフィールドを計算する。特殊なユースケースでは、オプションとして、ドキュメントの内容から導出されたLLM生成メタデータを使用して、ドキュメントと共に保存されるメタデータを充実させる。以下の手順に従う：

文書に既に保存されているメタデータ（著者、タイトル、作成日）を抽出する。
計算されたメタデータフィールド（ファイルの場所、サイズ、ページ数、テキストの長さ）を追加する。
（オプション）LLMを用いてドキュメントのテキストを分析し、コンテンツに基づくメタデータを生成する。
メタデータをテキストチャンクと共に保存する。

図4-2はこのワークフローを示している。

Diagram illustrating a four-step metadata extraction workflow involving text analysis, cloud processing, language model application, and metadata generation with examples of extracted metadata fields.

手順を実行するには、要件のライブラリをインストールする：

pip install PyPDF2 openai pydantic

次に、PDFをインポートし、そのメタデータフィールドを辞書に格納する。これらのフィールドの網羅性は、PDFを作成したソフトウェアに大きく依存する。多くのPDFには、著者、タイトル、主題、作成者、作成日、および変更日が含まれている。以下にコードを示す： ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 0642572383589

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

RAG with Python クックブック (Japanese Edition)

by Dominik Polzer

第4章データ準備

図4-1. データ処理テクニックを含む、簡略化されたRAGインデックス作成パイプライン

4.1 メタデータフィルタリングを可能にするメタデータの追加

課題

解決策

図4-2. メタデータフィールドの抽出と生成

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.