
ここでは、抽出したテキストのページ数を表示しています。また、0から数えた100 ページ
目のテキストの先頭100文字を表示しています。このプログラムを実行するとPDF ファイル
からテキストが抽出され、ページ数と40 ページ目のテキストが表示されます。手元の環境で
実行した結果を次に示します。
O U T
ページ数: 307
100ページ目: 図表4-1-5-1 企業の研究費の割合(2021年度)
情報通信機械
器具製造業 ,
1兆226億円,
7.2%電気機械器具
製造業 ,
8,377 億円,
5.9%
電子部品・デバイス・
電子回
この結果から、合計307ページのPDF ファイルからテキストが抽出されていることがわか
ります。また、100ページ目には企業の研究費の割合に関する情報が含まれていることが確認
できます。
5.6.2
テキストの分割
次に、このテキストを分割する処理を行っていきます。テキストの分割では、文や段落な
ど、適切な単位にテキストを分割します。LangChainでは、様々なテキスト分割の方法を提供
しています。
表5.6.2 に、LangChain でサポートされているテキスト分割タイプを示します。
表5.6.2
テキスト分割タイプ 説明
CharacterTextSplitter テキストを個々の文字に分割します。
RecursiveCharacterTextSplitter 定義された区切り文字(例: ”\n”, ” ”, ”.”)に基づいてテキストを分割します。 ...