book

仕組みからわかる大規模言語モデル生成AI時代のソフトウェア開発入門

Name: 仕組みからわかる大規模言語モデル 生成AI時代のソフトウェア開発入門
Author: 奥田 勝己
ISBN: 9784798185613

by 奥田勝己

February 2025

Intermediate

376 pages

9h 25m

Japanese

Shōeisha

Read now

Unlock full access

カバー
表紙
はじめに
本書の構成と読み方
・本書が対象とする読者と、取り扱っている内容
・サンプルプログラムの動作環境と注意事項
・表記のルール
付属データのご案内
目次 (1/2)
目次 (2/2)
第1章 Transformer

1.1 言語モデルとは
1.1.1 モデル
1.1.2 言語
1.1.3 言語モデル
1.1.4 大規模言語モデル
1.2 色々なLLM
1.2.1 事前学習済み言語モデル
・トークナイザによるトークン化
・Transformerによる次のトークンの予測
・生成されたトークン列のデコード
1.2.2 対話型（Conversational）LLM
・会話履歴のトークン化
・Transformerによる次のトークンの予測
・生成されたトークン列のデコード
1.2.3 マルチモーダルLLM
・入力のエンコード
・Transformerによる次のトークンの予測
・生成されたトークン列のデコード
1.3 Transformerの仕組み
1.3.1 Transformerの構成
1.3.2 Transformer各部分の役割
・埋め込み層の役割
・デコーダスタックの役割
・出力線形層の役割
1.3.3 埋め込み層
・テキスト埋め込み
・位置埋め込み
1.3.4 デコーダスタック
・マスク付きマルチヘッド注意機構
・注意機構の意味
・注意機構の計算
・内積の正規化
・マスク付き注意機構
・レイヤ正規化（Layer Normalization）
・フィードフォワードニューラルネットワーク
・隠れ層
・出力層
1.3.5 出力線形層（Output Linear Layer）
・線形変換層
・ソフトマックス関数（Softmax Function）
1.3.6 パラメータ一覧
1.3.7 派生系の例：Llama 3
・位置エンコーディングの方法の変更
・正規化手法の変更
・活性化関数の変更
・注意機構のキーとバリューのヘッド数の変更
・線形層におけるバイアス項の削除
1.4 トークナイザ
1.4.1 デコード
1.4.2 エンコード
・トライツリーの作成
・トライツリーを用いたエンコード
・語彙表の事前学習
1.5 トークンのサンプリング手法
1.5.1 temperature・確率分布の調整
・計算方法
・計算例
1.5.2 top-k（トップk）
1.5.3 top-p（トップp）
第2章学習
2.1 LLMの学習の概要
2.1.1 学習手法の種類
2.1.2 パラメータ更新の仕組み
2.1.3 データセットの分割と役割
2.2 LLMの事前学習
2.2.1 事前学習用データ2.2.2 自己教師あり学習
2.2.3 交差エントロピー損失
・情報量・エントロピー
・交差エントロピー
・交差エントロピーの例
・言語モデルにおける交差エントロピー損失
2.3 指示チューニング（Instruction Tuning）
2.4 RLHF（Reinforcement Learning from Human Feedback）
2.4.1 強化学習の基本概念
2.4.2 強化学習のLLMへの適用
2.4.3 報酬モデル
・データ収集
・ペアワイズランキング学習
2.4.4 強化学習
・KLダイバージェンス
・目的関数におけるKLダイバージェンス
・PPO損失関数
2.5 勾配降下法
2.5.1 勾配降下法の考え方
2.5.2 学習率の役割と影響
2.5.3 勾配降下法によるパラメータ更新
2.5.4 勾配降下法の派生系
2.5.5 パラメータの初期化
・Xavier初期化（Glorot初期化）
・He初期化
・ゼロ初期化
2.6 誤差逆伝播法（Backpropagation）
2.6.1 問題の整理
2.6.2 依存関係の抽出
2.6.3 サブ問題の解く順序
2.6.4 誤差逆伝播法のアルゴリズム
2.7 学習における問題と対策
2.7.1 過学習（Overfitting）
2.7.2 勾配消失（Vanishing Gradient）
2.7.3 勾配爆発（Exploding Gradient）
第3章プロンプトエンジニアリング
3.1 プロンプトエンジニアリングの重要性
3.2 Zero-Shotプロンプティング
3.3 Few-Shotプロンプティング
3.4 Chain-of-Thought（CoT）プロンプティング
3.4.1 Few-Shot CoTプロンプティング
3.4.2 Zero-Shot CoTプロンプティング
3.5 Self-Consistency（自己整合性）
3.6 プロンプトチェーニング
3.7 RAG（Retrieval Augmented Generation）
3.7.1 インデックスの作成
・テキスト抽出
・分割・ベクトル化・保存3.7.2 情報の検索
3.7.3 回答の生成
3.8 ReAct
3.8.1 ReActのプロンプトと処理手順
3.8.2 ReActの実装方法
・1.プロンプトの生成
・2（a）推論（Thought）
・2（b）行動（Action）
・2（c）観測（Observation）
・2（d）次の推論のためのプロンプトの更新
・3.最終回答の生成
3.9 Reflexion
3.9.1 エージェントの構成
3.9.2 Reflexionの処理手順
3.9.3 Reflexionを用いたコード生成の例 (1/2)
3.9.3 Reflexionを用いたコード生成の例 (2/2)
3.10 役割やペルソナの設定
3.10.1 役割設定によるCoT推論性能の向上3.10.2 役割設定の限界
3.10.3 ペルソナの設定
第4章言語モデルAPI
4.1 会話型APIと補完型API
4.1.1 会話型API
4.1.2 補完型API
4.2 各種言語モデルAPIの共通点
4.2.1 リクエストや応答の流れ
4.2.2 APIキーによる認証
4.2.3 PythonによるAPIライブラリの提供
4.2.4 言語モデルの制御パラメータ
・temperature（温度）
・top-p（トップp）
・最大トークン数・ストップシーケンス
4.3 言語モデルAPIごとの使い方
4.3.1 OpenAI API・会話
・マルチモーダル
4.3.2 Gemini API
・会話
・マルチモーダル
4.3.3 Anthropic API
・会話
・マルチモーダル
4.3.4 言語モデルに依存しないAPI（LangChain）
第5章 LLMフレームワーク―LangChain―
5.1 LangChainの概要
5.2 会話モデル
5.2.1 会話モデルの作成
5.2.2 会話モデルの呼び出し
・単一文字列による呼び出し
・メッセージリストによる呼び出し（テキストのみ）
・メッセージリストによる呼び出し（マルチモーダル）
5.2.3 ストリーム呼び出し
5.2.4 バッチ呼び出し
5.2.5 出力フォーマットの指定（構造化出力）
・単純なデータモデル
・入れ子になったデータモデル
5.2.6 ツールの利用
・ツールの定義と利用
5.3 プロンプトテンプレート
5.3.1 PromptTemplateクラス
・PromptTemplateの動作確認
・PromptTemplateの利用
5.3.2 ChatPromptTemplateクラス
・MessagePromptTemplateの利用
5.3.3 MessagesPlaceholderクラス
5.4 出力パーサ
5.4.1 StrOutputParserの利用
5.5 チェーンのためのLCEL
5.5.1 プロンプトチェーニングとLCEL
5.5.2 チェーンとは
5.5.3 シーケンスとパラレル
・シーケンス
・パラレル
・辞書の値がRunnableの場合
・辞書の値がRunnableに変換できる式の場合
5.5.4 RunnableParallelの利用例
・辞書型出力を作るための利用
・並列化のための利用
5.6 RAGサポート
5.6.1 テキストの抽出
5.6.2 テキストの分割
5.6.3 ベクトル化
5.6.4 ベクトルの保存
5.6.5 情報の検索
5.6.6 回答の生成 (1/2)
5.6.6 回答の生成 (2/2)
5.7 エージェントとツールの利用
5.7.1 エージェントの概要
5.7.2 エージェントの作成 (1/2)
5.7.2 エージェントの作成 (2/2)
第6章マルチエージェントフレームワーク―LangGraph―
6.1 エージェントとは
6.2 マルチエージェントアーキテクチャ
6.2.1 単一エージェントアーキテクチャ6.2.2 水平アーキテクチャ
6.2.3 垂直アーキテクチャ
6.3 LangGraphの基礎
6.3.1 LangGraphのAPI
6.3.2 LangGraphの使用例
・モジュールのインポート
・状態の定義
・ノード関数の定義
・条件チェック関数の定義
・状態グラフの定義
・状態グラフの実行
6.4 LangGraphの応用
6.4.1 単一エージェントの構築：自然言語シェルインタフェース
・モジュールのインポート
・ツールの定義
・エージェントの状態定義
・ノード関数の定義
・条件チェック関数の定義
・状態グラフの定義
・状態グラフの実行
6.4.2 水平アーキテクチャの構築：訪問販売シミュレーション
・モジュールのインポート
・プロンプトの定義
・チェーンの定義
・状態の定義
・ノード関数の定義
・条件チェック関数の定義
・状態グラフの定義
・状態グラフの実行
6.4.3 垂直アーキテクチャの構築：エージェントチームによるソフトウェア開発
・モジュールのインポート
・ツールの定義
・状態の定義
・エージェントの定義
・ノード関数の定義
・条件チェック関数の定義
・ワークフローの定義
・ワークフローの実行 (1/2)
・ワークフローの実行 (2/2)
第7章アプリケーション
7.1 マルチモーダルRAGチャットボット
7.1.1 構築するチャットボットの概要
7.1.2 ユーザインタフェースの実装
7.1.3 質問応答システムへの拡張
7.1.4 会話履歴の実装
7.1.5 コンテキストの拡張
7.1.6 RAGの実装
・インデックスの作成
・インデックスの利用
7.1.7 マルチモーダルへの対応 (1/2)
7.1.7 マルチモーダルへの対応 (2/2)
7.2 クイズ作成・採点システム
7.2.1 クイズ作成・採点システムの概要
7.2.2 事前準備
7.2.3 LLMの入出力
7.2.4 システムの実装
Appendix 学習環境の構築
A.1 Python環境のセットアップ
A.1.1 Pythonのインストール
A.1.2 仮想環境の作成
A.1.3 必要パッケージのインストール
A.1.4 Windowsでインストールに失敗する場合
A.2 APIキーの取得
A.2.1 OpenAI APIキーの取得方法A.2.2 Anthropic APIキーの取得方法
A.2.3 Gemini APIキーの取得方法
おわりに
参考文献 (1/2)
参考文献 (2/2)
INDEX (1/2)
INDEX (2/2)
奥付

Content preview from 仕組みからわかる大規模言語モデル生成AI時代のソフトウェア開発入門

ついては1.3.3 で詳しく説明します。また、画像から生成されたトークン埋め込みベクトル

は、埋め込み層を通過した後のトークン列に直接統合されます。

本例ではテキストと画像のエンコードを説明しましたが、音声や動画についても同様の手順

でエンコードされます。音声入力のエンコードは、AudioLDMのようなモデルを用いて行わ

れます。AudioLDMは、音声信号をメルスペクトログラム（音声特徴量）に変換し、それを離

散的な音声トークンに量子化します。これらの音声トークンは、Transformer が入力できる

トークン埋め込みベクトルの列に変換されます。また、動画入力のエンコードは、Zeroscope

のようなモデルを用いて行われます。Zeroscopeは動画をフレームに分割し、各フレームを画

像として扱います。これらの画像は、ImageBindと同様の方法でトークン埋め込みベクトルの

列に変換されます。

Transformer による次のトークンの予測

Transformerは、エンコードされたトークン列を入力として受け取り、次のトークン列を予

測します。この処理は通常のLLMと同様に行われます。Transformerは、入力トークン列の

文脈を考慮しながら、次のトークンの確率分布を生成します。

マルチモーダルLLM では、出力されるトークン列にテキストだけでなく画像、音声、動画

などを表す特殊トークンが含まれる可能性があります。図1.2.6の例では、Transformerはテ

キストと画像の文脈を考慮しながらアシスタントの応答を生成します。生成されたトークン列 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

What Successful Brick-and-Mortar Retailers Get Right

Publisher Resources

ISBN: 9784798185613

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

仕組みからわかる大規模言語モデル生成AI時代のソフトウェア開発入門

by 奥田勝己

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

What Successful Brick-and-Mortar Retailers Get Right

The Three Traps That Stymie Reinvention

What Successful Project Managers Do

Tips for Designing Effective Presentation Slide Decks

Publisher Resources