book

機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発

Name: 機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発
ISBN: 9784873119953

by Lewis Tunstall, Leandro von Werra, Thomas Wolf, 中山光樹

August 2022

Beginner to intermediate

424 pages

7h 18m

Japanese

O'Reilly Japan, Inc.

Read now

Unlock full access

　大扉
　原書大扉
　クレジット
　賞賛の声
　序文
　訳者まえがき
　まえがき
　1章　入門 Transformers
　　1.1　エンコーダ・デコーダのフレームワーク　　1.2　アテンション機構　　1.3　NLPにおける転移学習　　1.4　入門 Hugging Face Transformers　　1.5　Transformerの応用を巡る旅　　　1.5.1　テキスト分類　　　1.5.2　固有表現認識　　　1.5.3　質問応答　　　1.5.4　要約　　　1.5.5　翻訳　　　1.5.6　テキスト生成　　1.6　Hugging Faceのエコシステム　　　1.6.1　Hugging Face Hub　　　1.6.2　Hugging Face Tokenizers　　　1.6.3　Hugging Face Datasets　　　1.6.4　Hugging Face Accelerate　　1.7　Transformerの主な課題　　1.8　まとめ
　2章　テキスト分類
　　2.1　データセット　　　2.1.1　初めてのHugging Face Datasets　　　　　自分のデータセットがHubにない場合は？　　　2.1.2　データセットからDataFrameへ　　　2.1.3　クラス分布の確認　　　2.1.4　ツイートの長さはどれくらい？　　2.2　テキストからトークンへ　　　2.2.1　文字トークン化　　　2.2.2　単語トークン化　　　2.2.3　サブワードトークン化　　　2.2.4　データセット全体のトークン化　　2.3　テキスト分類器の学習　　　2.3.1　特徴抽出器としてのTransformer　　　　2.3.1.1　事前学習済みモデルの使用　　　　　フレームワーク間の相互運用性　　　　2.3.1.2　最後の隠れ状態の抽出　　　　2.3.1.3　特徴行列の作成　　　　2.3.1.4　学習データセットの可視化　　　　2.3.1.5　単純な分類器の学習　　　2.3.2　Transformerのファインチューニング　　　　2.3.2.1　事前学習済みモデルのロード　　　　2.3.2.2　性能指標の定義　　　　2.3.2.3　モデルの学習　　　　　Kerasを使ったファインチューニング　　　　2.3.2.4　エラー分析　　　　2.3.2.5　モデルの保存と共有　　2.4　まとめ
　3章　Transformerの詳細
　　3.1　Transformerのアーキテクチャ　　3.2　エンコーダ　　　3.2.1　セルフアテンション　　　　3.2.1.1　スケール化ドット積アテンション　　　　　クエリ、キー、バリューを理解する　　　　3.2.1.2　マルチヘッドアテンション　　　3.2.2　順伝播層　　　3.2.3　レイヤー正規化の追加　　　3.2.4　位置埋め込み　　　3.2.5　分類ヘッドの追加　　3.3　デコーダ　　　　　エンコーダ・デコーダアテンションの謎を解く　　3.4　Transformer系モデルの紹介　　　3.4.1　Transformerの系統樹　　　3.4.2　エンコーダ系のモデル　　　3.4.3　デコーダ系のモデル　　　3.4.4　エンコーダ・デコーダ系のモデル　　3.5　まとめ

　4章　多言語の固有表現認識
　　4.1　データセット　　4.2　多言語Transformer　　4.3　トークン化の詳細　　　4.3.1　トークナイザーのパイプライン　　　4.3.2　SentencePieceトークナイザー　　4.4　固有表現認識用のTransformer　　4.5　Transformerモデルクラスの詳細　　　4.5.1　ボディとヘッド　　　4.5.2　トークン分類のためのカスタムモデルの作成　　　4.5.3　カスタムモデルのロード　　4.6　固有表現認識のためのテキストトークン化　　4.7　性能指標　　4.8　XLM-RoBERTaのファインチューニング　　4.9　エラー分析　　4.10　言語間転移　　　4.10.1　ゼロショット転移が有効なのはどんなときか？　　　4.10.2　複数言語の同時並行的なファインチューニング　　4.11　モデルウィジェットとのインタラクション　　4.12　まとめ
　5章　テキスト生成
　　5.1　一貫した内容のテキストを生成するための課題　　5.2　貪欲法によるデコード　　5.3　ビームサーチによるデコード　　5.4　サンプリング手法　　5.5　Top-kサンプリングとTop-pサンプリング　　5.6　どのデコード手法が最適か？　　5.7　まとめ
　6章　要約
　　6.1　CNN/DailyMailデータセット　　6.2　要約のパイプライン　　　6.2.1　要約のベースライン　　　6.2.2　GPT-2　　　6.2.3　T5　　　6.2.4　BART　　　6.2.5　PEGASUS　　6.3　要約の比較　　6.4　生成されたテキストの品質を測定する　　　6.4.1　BLEU　　　6.4.2　ROUGE　　6.5　CNN/DailyMailデータセットでPEGASUSを評価　　6.6　要約モデルの学習　　　6.6.1　SAMSumでPEGASUSを評価　　　6.6.2　PEGASUSのファインチューニング　　　6.6.3　対話の要約を生成　　6.7　まとめ
　7章　質問応答
　　7.1　レビューベースの質問応答システムの構築　　　7.1.1　データセット　　　　　スタンフォード質問応答データセット（SQuAD）　　　7.1.2　テキストから回答を抽出する　　　　7.1.2.1　スパン分類　　　　7.1.2.2　質問応答用のトークン化　　　　7.1.2.3　長いパッセージへの対応　　　7.1.3　Haystackを用いた質問応答パイプラインの構築　　　　7.1.3.1　ドキュメントストアの初期化　　　　7.1.3.2　Retrieverの初期化　　　　7.1.3.3　Readerの初期化　　　　7.1.3.4　コンポーネントを組み合わせる　　7.2　質問応答パイプラインの改善　　　7.2.1　Retrieverの評価　　　　7.2.1.1　Dense Passage Retrieval　　　7.2.2　Readerの評価　　　7.2.3　ドメイン適応　　　7.2.4　質問応答パイプライン全体の評価　　7.3　抽出型質問応答の先　　7.4　まとめ
　8章　Transformersの高速化
　　8.1　意図検出を事例として　　8.2　性能ベンチマークの作成　　8.3　知識蒸留でモデルを小さくする　　　8.3.1　ファインチューニングのための知識蒸留　　　8.3.2　事前学習のための知識蒸留　　　8.3.3　知識蒸留用のトレーナーの作成　　　8.3.4　良い生徒モデルの選択　　　8.3.5　Optunaによる良いハイパーパラメータの探索　　　8.3.6　蒸留されたモデルのベンチマーク　　8.4　量子化によるモデルの高速化　　　　　浮動小数点数と固定小数点数についての入門　　8.5　量子化モデルのベンチマーク　　8.6　ONNXとONNX Runtimeを使った推論の最適化　　8.7　重みの枝刈りでモデルをよりスパースにする　　　8.7.1　ディープニューラルネットワークにおけるスパース性　　　8.7.2　重み枝刈りの手法　　　　8.7.2.1　Magnitude Pruning　　　　8.7.2.2　Movement Pruning　　8.8　まとめ
　9章　ラベルのないまたは少ない状況への対応方法
　　9.1　GitHub Issueタガーの構築　　　9.1.1　データの取得　　　9.1.2　データの準備　　　9.1.3　学習データセットの作成　　　9.1.4　学習スライスの作成　　9.2　ナイーブベイズによるベースラインの実装　　9.3　ラベルのないデータへの対処方法　　9.4　ラベルの少ないデータへの対処方法　　　9.4.1　データ拡張　　　9.4.2　埋め込みをルックアップテーブルとして使用する場合　　　　　FAISSによる効率的な類似度検索　　　9.4.3　通常のTransformerのファインチューニング　　　9.4.4　プロンプトを使ったインコンテキスト学習と少数事例学習　　9.5　ラベルなしデータの活用　　　9.5.1　言語モデルのファインチューニング　　　9.5.2　分類器のファインチューニング　　　9.5.3　高度な手法　　　　9.5.3.1　教師なしデータ拡張　　　　9.5.3.2　不確かさを考慮した自己学習　　9.6　まとめ
　10章　Transformerをゼロから学習する
　　10.1　大規模データセットとその入手先　　　10.1.1　大規模コーパスを構築する際の課題　　　10.1.2　コードデータセットの自作　　　　10.1.2.1　Google BigQueryを使ったデータセットの作成　　　　　ノイズを除去するかしないか？　　　10.1.3　大規模データセットの扱い方　　　　10.1.3.1　メモリマッピング　　　　10.1.3.2　ストリーミング　　　10.1.4　Hugging Face Hubへのデータセットの追加　　10.2　トークナイザーの構築　　　10.2.1　トークナイザーモデル　　　10.2.2　トークナイザーの性能測定　　　10.2.3　Python用のトークナイザー　　　10.2.4　トークナイザーの学習　　　10.2.5　Hubにカスタムトークナイザーを保存する　　10.3　ゼロから始めるモデルの学習　　　10.3.1　事前学習の目的の話　　　　10.3.1.1　因果的言語モデル　　　　10.3.1.2　マスク言語モデル　　　　10.3.1.3　系列変換モデルの学習　　　10.3.2　モデルの初期化　　　10.3.3　データローダーの実装　　　10.3.4　学習ループの定義　　　10.3.5　学習の実行　　10.4　結果と分析　　10.5　まとめ
　11章　Transformerの未来
　　11.1　Transformerのスケーリング　　　11.1.1　スケーリング則　　　11.1.2　スケーリングへの挑戦　　　11.1.3　アテンションプリーズ！　　　11.1.4　スパースアテンション　　　11.1.5　アテンションの線形化　　11.2　テキスト以外への適用　　　11.2.1　画像　　　　11.2.1.1　iGPT　　　　11.2.1.2　ViT　　　11.2.2　テーブル　　11.3　マルチモーダルTransformer　　　11.3.1　音声認識　　　11.3.2　画像とテキスト　　　　11.3.2.1　VQA　　　　11.3.2.2　LayoutLM　　　　11.3.2.3　DALL-E　　　　11.3.2.4　CLIP　　11.4　この先の学び方
　著者紹介
　奥付

Content preview from 機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発

11章Transformerの未来

本書では、さまざまな自然言語処理タスクにおけるTransformerの強力な能力を探ってきました。この最終章では、視点を変えて、Transformerに関する現在の課題と、その課題を克服しようとする研究動向について紹介します。最初に、モデルとコーパスのサイズの両方において、Transformerをスケールアップするトピックを探ります。次に、セルフアテンション機構を効率化するための技術に目を向けます。最後に、テキスト、画像、音声など複数の領域にまたがる入力をモデル化できる、マルチモーダルTransformerという新しい分野を紹介します。

11.1　Transformerのスケーリング

2019年、研究者のRichard Sutton（https://oreil.ly/119br）は「The Bitter Lesson（苦い教訓）」（https://oreil.ly/YtD3V）と題する挑発的なエッセイを書き、次のように主張しました。

70年にわたるAI研究から得られた最大の教訓は、計算を活用した一般的な手法が最終的には大差をつけて効果的だということです。短期的には、研究者はドメインに関する人間の知識を活用して改善しようとしますが、長期的に重要なのは計算を活用することです。この2つは互いに相反する必要はないのですが、実際にはそうなりがちです。そして、人間の知識によるアプローチは、計算を活用する一般的な手法に適さない形で手法を複雑化する傾向があります。

このエッセイでは、チェスや囲碁など、人間の知識をAIシステムにエンコードするというアプローチが、最終的に計算量の増加に負けた歴史的な例をいくつか紹介しています。Suttonはこれを、AIの研究分野にとっての「苦い教訓」と呼んでいます。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9784873119953Other

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発

by Lewis Tunstall, Leandro von Werra, Thomas Wolf, 中山光樹

11章Transformerの未来

11.1　Transformerのスケーリング

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.