book

機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発

Name: 機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発
ISBN: 9784873119953

by Lewis Tunstall, Leandro von Werra, Thomas Wolf, 中山光樹

August 2022

Beginner to intermediate

424 pages

7h 18m

Japanese

O'Reilly Japan, Inc.

Read now

Unlock full access

　大扉
　原書大扉
　クレジット
　賞賛の声
　序文
　訳者まえがき
　まえがき
　1章　入門 Transformers
　　1.1　エンコーダ・デコーダのフレームワーク　　1.2　アテンション機構　　1.3　NLPにおける転移学習　　1.4　入門 Hugging Face Transformers　　1.5　Transformerの応用を巡る旅　　　1.5.1　テキスト分類　　　1.5.2　固有表現認識　　　1.5.3　質問応答　　　1.5.4　要約　　　1.5.5　翻訳　　　1.5.6　テキスト生成　　1.6　Hugging Faceのエコシステム　　　1.6.1　Hugging Face Hub　　　1.6.2　Hugging Face Tokenizers　　　1.6.3　Hugging Face Datasets　　　1.6.4　Hugging Face Accelerate　　1.7　Transformerの主な課題　　1.8　まとめ
　2章　テキスト分類
　　2.1　データセット　　　2.1.1　初めてのHugging Face Datasets　　　　　自分のデータセットがHubにない場合は？　　　2.1.2　データセットからDataFrameへ　　　2.1.3　クラス分布の確認　　　2.1.4　ツイートの長さはどれくらい？　　2.2　テキストからトークンへ　　　2.2.1　文字トークン化　　　2.2.2　単語トークン化　　　2.2.3　サブワードトークン化　　　2.2.4　データセット全体のトークン化　　2.3　テキスト分類器の学習　　　2.3.1　特徴抽出器としてのTransformer　　　　2.3.1.1　事前学習済みモデルの使用　　　　　フレームワーク間の相互運用性　　　　2.3.1.2　最後の隠れ状態の抽出　　　　2.3.1.3　特徴行列の作成　　　　2.3.1.4　学習データセットの可視化　　　　2.3.1.5　単純な分類器の学習　　　2.3.2　Transformerのファインチューニング　　　　2.3.2.1　事前学習済みモデルのロード　　　　2.3.2.2　性能指標の定義　　　　2.3.2.3　モデルの学習　　　　　Kerasを使ったファインチューニング　　　　2.3.2.4　エラー分析　　　　2.3.2.5　モデルの保存と共有　　2.4　まとめ
　3章　Transformerの詳細
　　3.1　Transformerのアーキテクチャ　　3.2　エンコーダ　　　3.2.1　セルフアテンション　　　　3.2.1.1　スケール化ドット積アテンション　　　　　クエリ、キー、バリューを理解する　　　　3.2.1.2　マルチヘッドアテンション　　　3.2.2　順伝播層　　　3.2.3　レイヤー正規化の追加　　　3.2.4　位置埋め込み　　　3.2.5　分類ヘッドの追加　　3.3　デコーダ　　　　　エンコーダ・デコーダアテンションの謎を解く　　3.4　Transformer系モデルの紹介　　　3.4.1　Transformerの系統樹　　　3.4.2　エンコーダ系のモデル　　　3.4.3　デコーダ系のモデル　　　3.4.4　エンコーダ・デコーダ系のモデル　　3.5　まとめ

　4章　多言語の固有表現認識
　　4.1　データセット　　4.2　多言語Transformer　　4.3　トークン化の詳細　　　4.3.1　トークナイザーのパイプライン　　　4.3.2　SentencePieceトークナイザー　　4.4　固有表現認識用のTransformer　　4.5　Transformerモデルクラスの詳細　　　4.5.1　ボディとヘッド　　　4.5.2　トークン分類のためのカスタムモデルの作成　　　4.5.3　カスタムモデルのロード　　4.6　固有表現認識のためのテキストトークン化　　4.7　性能指標　　4.8　XLM-RoBERTaのファインチューニング　　4.9　エラー分析　　4.10　言語間転移　　　4.10.1　ゼロショット転移が有効なのはどんなときか？　　　4.10.2　複数言語の同時並行的なファインチューニング　　4.11　モデルウィジェットとのインタラクション　　4.12　まとめ
　5章　テキスト生成
　　5.1　一貫した内容のテキストを生成するための課題　　5.2　貪欲法によるデコード　　5.3　ビームサーチによるデコード　　5.4　サンプリング手法　　5.5　Top-kサンプリングとTop-pサンプリング　　5.6　どのデコード手法が最適か？　　5.7　まとめ
　6章　要約
　　6.1　CNN/DailyMailデータセット　　6.2　要約のパイプライン　　　6.2.1　要約のベースライン　　　6.2.2　GPT-2　　　6.2.3　T5　　　6.2.4　BART　　　6.2.5　PEGASUS　　6.3　要約の比較　　6.4　生成されたテキストの品質を測定する　　　6.4.1　BLEU　　　6.4.2　ROUGE　　6.5　CNN/DailyMailデータセットでPEGASUSを評価　　6.6　要約モデルの学習　　　6.6.1　SAMSumでPEGASUSを評価　　　6.6.2　PEGASUSのファインチューニング　　　6.6.3　対話の要約を生成　　6.7　まとめ
　7章　質問応答
　　7.1　レビューベースの質問応答システムの構築　　　7.1.1　データセット　　　　　スタンフォード質問応答データセット（SQuAD）　　　7.1.2　テキストから回答を抽出する　　　　7.1.2.1　スパン分類　　　　7.1.2.2　質問応答用のトークン化　　　　7.1.2.3　長いパッセージへの対応　　　7.1.3　Haystackを用いた質問応答パイプラインの構築　　　　7.1.3.1　ドキュメントストアの初期化　　　　7.1.3.2　Retrieverの初期化　　　　7.1.3.3　Readerの初期化　　　　7.1.3.4　コンポーネントを組み合わせる　　7.2　質問応答パイプラインの改善　　　7.2.1　Retrieverの評価　　　　7.2.1.1　Dense Passage Retrieval　　　7.2.2　Readerの評価　　　7.2.3　ドメイン適応　　　7.2.4　質問応答パイプライン全体の評価　　7.3　抽出型質問応答の先　　7.4　まとめ
　8章　Transformersの高速化
　　8.1　意図検出を事例として　　8.2　性能ベンチマークの作成　　8.3　知識蒸留でモデルを小さくする　　　8.3.1　ファインチューニングのための知識蒸留　　　8.3.2　事前学習のための知識蒸留　　　8.3.3　知識蒸留用のトレーナーの作成　　　8.3.4　良い生徒モデルの選択　　　8.3.5　Optunaによる良いハイパーパラメータの探索　　　8.3.6　蒸留されたモデルのベンチマーク　　8.4　量子化によるモデルの高速化　　　　　浮動小数点数と固定小数点数についての入門　　8.5　量子化モデルのベンチマーク　　8.6　ONNXとONNX Runtimeを使った推論の最適化　　8.7　重みの枝刈りでモデルをよりスパースにする　　　8.7.1　ディープニューラルネットワークにおけるスパース性　　　8.7.2　重み枝刈りの手法　　　　8.7.2.1　Magnitude Pruning　　　　8.7.2.2　Movement Pruning　　8.8　まとめ
　9章　ラベルのないまたは少ない状況への対応方法
　　9.1　GitHub Issueタガーの構築　　　9.1.1　データの取得　　　9.1.2　データの準備　　　9.1.3　学習データセットの作成　　　9.1.4　学習スライスの作成　　9.2　ナイーブベイズによるベースラインの実装　　9.3　ラベルのないデータへの対処方法　　9.4　ラベルの少ないデータへの対処方法　　　9.4.1　データ拡張　　　9.4.2　埋め込みをルックアップテーブルとして使用する場合　　　　　FAISSによる効率的な類似度検索　　　9.4.3　通常のTransformerのファインチューニング　　　9.4.4　プロンプトを使ったインコンテキスト学習と少数事例学習　　9.5　ラベルなしデータの活用　　　9.5.1　言語モデルのファインチューニング　　　9.5.2　分類器のファインチューニング　　　9.5.3　高度な手法　　　　9.5.3.1　教師なしデータ拡張　　　　9.5.3.2　不確かさを考慮した自己学習　　9.6　まとめ
　10章　Transformerをゼロから学習する
　　10.1　大規模データセットとその入手先　　　10.1.1　大規模コーパスを構築する際の課題　　　10.1.2　コードデータセットの自作　　　　10.1.2.1　Google BigQueryを使ったデータセットの作成　　　　　ノイズを除去するかしないか？　　　10.1.3　大規模データセットの扱い方　　　　10.1.3.1　メモリマッピング　　　　10.1.3.2　ストリーミング　　　10.1.4　Hugging Face Hubへのデータセットの追加　　10.2　トークナイザーの構築　　　10.2.1　トークナイザーモデル　　　10.2.2　トークナイザーの性能測定　　　10.2.3　Python用のトークナイザー　　　10.2.4　トークナイザーの学習　　　10.2.5　Hubにカスタムトークナイザーを保存する　　10.3　ゼロから始めるモデルの学習　　　10.3.1　事前学習の目的の話　　　　10.3.1.1　因果的言語モデル　　　　10.3.1.2　マスク言語モデル　　　　10.3.1.3　系列変換モデルの学習　　　10.3.2　モデルの初期化　　　10.3.3　データローダーの実装　　　10.3.4　学習ループの定義　　　10.3.5　学習の実行　　10.4　結果と分析　　10.5　まとめ
　11章　Transformerの未来
　　11.1　Transformerのスケーリング　　　11.1.1　スケーリング則　　　11.1.2　スケーリングへの挑戦　　　11.1.3　アテンションプリーズ！　　　11.1.4　スパースアテンション　　　11.1.5　アテンションの線形化　　11.2　テキスト以外への適用　　　11.2.1　画像　　　　11.2.1.1　iGPT　　　　11.2.1.2　ViT　　　11.2.2　テーブル　　11.3　マルチモーダルTransformer　　　11.3.1　音声認識　　　11.3.2　画像とテキスト　　　　11.3.2.1　VQA　　　　11.3.2.2　LayoutLM　　　　11.3.2.3　DALL-E　　　　11.3.2.4　CLIP　　11.4　この先の学び方
　著者紹介
　奥付

Content preview from 機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発

1章入門 Transformers

2017年、Googleの研究者たちは、系列モデリングのための新しいニューラルネットワークアーキテクチャを提案する論文を発表しました†1。Transformerと名付けられたこのアーキテクチャは、機械翻訳タスクにおいて、翻訳品質と学習コストの両面でリカレントニューラルネットワーク（RNN）を上回りました。

[†1] A. Vaswani et al., "Attention Is All You Need" (https://arxiv.org/abs/1706.03762), (2017)。このタイトルがあまりにもキャッチーだったので、後続の論文（https://oreil.ly/wT8Ih）でも50本以上がタイトルに「all you need」を入れているそうです。

これと並行して、ULMFiTと呼ばれる効果的な転移学習法により、非常に大規模かつ多様なコーパスでLSTMネットワークを学習すれば、少ないラベル付きデータで非常に性能の良いテキスト分類器を構築できることが示されました†2。

[†2] J. Howard and S. Ruder, "Universal Language Model Fine-Tuning for Text Classification" (https://arxiv.org/abs/1801.06146), (2018).

これらの研究は、今日もっともよく知られている2つのTransformerであるGenerative Pretrained Transformer（GPT）†3とBidirectional Encoder Representations from Transformers（BERT）†4のきっかけとなりました。Transformerと教師なし学習を組み合わせることで、これらのモデルはタスク固有のアーキテクチャをゼロから学習する必要性をなくし、NLPのほぼすべてのベンチマークを大幅に更新しました。GPTとBERTのリリース以来、Transformerモデルが大量に提案されています。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9784873119953Other

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発

by Lewis Tunstall, Leandro von Werra, Thomas Wolf, 中山光樹

1章入門 Transformers

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.