
5
界経済フォーラムは、2
チャンク数は336で、100 番目のチャンクにはメタバースに関する情報が含まれていること
がわかります。元々のテキストは307 ページでしたが、336 個のチャンクに分割されているこ
とがわかります。また、分割前の100番目とは異なるテキストが含まれていることがわかりま
す。
5.6.3
ベクトル化
次に、分割したテキストをベクトル化する処理を行っていきます。テキストのベクトル化で
は、テキストを埋め込みベクトルに変換します。LangChainでは、様々な埋め込みモデルを提
供しています。表5.6.3 に、LangChain でサポートされている埋め込みモデルを示します。
表5.6.3
APIプロバイダ クラス パッケージ
OpenAI OpenAIEmbeddings langchain-openai
Cohere CohereEmbeddings langchain-cohere
リスト 5.6.3 に、テキストをベクトル化するプログラムを示します。ここでは、OpenAI の
埋め込みモデルを使用します。
リスト5.6.3
from langchain_community.document_loaders import PyPDFLoader
from langchain_text_splitters ...