Skip to Content
生産性のためのハンズオンRAG (Japanese Edition)
book

生産性のためのハンズオンRAG (Japanese Edition)

by Ofer Mendelevitch, Forrest Sheng Bao
May 2026
358 pages
5h 53m
Japanese
O'Reilly Media, Inc.
Content preview from 生産性のためのハンズオンRAG (Japanese Edition)

第8章 マルチモダリティRAG

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com

これまで、我々は主にテキストベースのRAGに焦点を当ててきた。そこでは、知識に基づくレスポンスは文字で表現可能なものに限定され、表、画像、音声、動画など、他の形式で表現された知識は無視されていた。

実際には、企業の知識は多くのモダリティで利用可能だ。財務報告書の損益計算書(P&L)、操作マニュアルの図解、あるいはカスタマーサービスのサービス呼び出しにおける言葉のニュアンスなどがそれにあたる。 図表を見たり、通話を聞いたり、表を読み取ったりできない場合、RAGシステムの精度は低下する。テキストベースの文書に基づいた回答は高品質だが、正確な回答に必要な情報が表や画像の中にある場合、低品質なレスポンスや誤ったレスポンスが返されることになる。

本章では、マルチモダリティRAGについて、またテキスト以外のモダリティで提供されるデータをRAGに統合する方法を探る。これらの他のモダリティを統合するための核心的な戦略に深く入り込み、それらがもたらす実運用上の課題を検討する。

この状況を把握するには、本番環境における「マルチモーダル」のあり方を明確にすることが役立つ。理想としては、テキストと同じくらい簡単に生の音声や動画を処理できる単一の「ネイティブ」なマルチモーダルモデルが望ましいが、現実は往々にして複雑さが大きい。実際には、企業向けマルチモーダルRAGに対する現在のアプローチのほとんどは、次の2つのカテゴリのいずれかに分類される。

「変換」アプローチ

の専用パーサー、自動音声認識(ASR)、 、またはビジョン・言語モデル(VLMs)を使用して、非テキストデータ を、標準的なRAGスタックに適合するテキストベースの構造化表現に変換する。

「ネイティブ」アプローチ

共有された潜在スペース内で、異なるマルチモダリティにわたる埋め込み をネイティブに処理できる、のマルチモーダルLLMを活用する。

本章では、信頼性と可観測性の面で依然として業界標準である「変換」アプローチに焦点を当てつつ、ネイティブのマルチモダリティ機能がこうした複雑なパイプラインをいかに簡素化し始めているかについても展望する。

表が埋め込まれた文書

多くの企業環境において、重要な情報を伝える埋め込み表を含む高価値な文書は数多く存在するが、 それらをRAGパイプラインに組み込むには、特殊化された戦略が必要となる。

埋め込み表の重要性とは?

表は、SEC報告書、研究論文、製品マニュアルなどの複雑な文書において非常に一般的だ。周囲のテキストが物語や定性的な分析を提供することが多い一方で、表自体は、高密度で構造化された「信頼できる情報源」を含む、独立した意味論的なマイクロドキュメントとして機能する。

例えば金融業界では、単一の四半期決算報告書において、収益と営業費用をマッピングするために「営業成績」に依存している。一例として、図8-1 はNvidiaの2025年10-K文書(40ページ)にある営業成績表を示している:

Table showing Nvidia's results of operations for fiscal years 2025 and 2024, highlighting revenue, costs, expenses, and net income as percentages.
図8-1. Nvidiaの 2025年10-K報告書における業績表

同様に、サプライチェーンや製造業では、部品表(BOM) ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

The Human Factor in AI-Based Decision-Making

The Human Factor in AI-Based Decision-Making

Philip Meissner, Christoph Keding
What Successful Project Managers Do

What Successful Project Managers Do

W. Scott Cameron, Jeffrey S. Russell, Edward J. Hoffman, Alexander Laufer

Publisher Resources

ISBN: 0642572397647