Skip to Content
PyTorch によるコーダーのための AI および ML
book

PyTorch によるコーダーのための AI および ML

by Laurence Moroney
July 2025
Intermediate to advanced
444 pages
7h 8m
Japanese
O'Reilly Media, Inc.
Content preview from PyTorch によるコーダーのための AI および ML

第8章. MLを使ってテキストを作成する

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com

2022年にChatGPTがリリースされ、 、ジェネレーティブAIという言葉が一般的な辞書に載った。クラウドベースのAIとチャットができるこのシンプルなアプリケーションは、人間の経験のほとんどすべてに関する知識であなたのクエリに答えることができるという点で、ほとんど奇跡的に思えた。トランスフォーマーと呼ばれるテクニックを使うことで、前章で見たリカレント・ニューラル・ネットワークを超える非常に高度な進化を遂げた。

トランスフォーマーは、あるテキストを別のテキストに変えるパターンを学習する。十分な大きさのトランスフォーマーアーキテクチャと、学習するのに十分な大きさのテキストセットがあれば、、GPTモデル(GPTはgenerative prerained transformersの略)は、テキストの一部に続く次のトークンを予測することができる。GPTがユーザフレンドリなアプリケーションに包まれたとき、まったく新しい産業が誕生した。

トランスフォーマーによるモデル作成は本書の範囲外であるが、第15章ではそのアーキテクチャを詳しく見ていく。

トランスフォーマーを使ったモデルのトレーニングに関わる原則は、RNNやLSTMのような、より小さくシンプルなアーキテクチャでも再現できる。この章では、伝統的なアイルランドの歌という、より小規模なテキスト・コーパスを用いて、その点を探っていく。

例えば、有名なテレビ番組のテキストの行を考えてみよう:

あなたは何も知らない、ジョン・スノウ

RNNで作成されたネクストトークン予測モデルは、レスポンスとしてこのような歌詞を導き出した:

  • あなたは何も知らない、ジョン・スノウ

  • 彼が駐屯している場所が

  • コークだろうが青い鳥の息子だろうが

  • 夏に向けて出航した

  • 古く甘く長く、喜びが鳴り響く

  • だから私は野生のコリーンが死ぬのを待つだろう

このテキストは、小さなコーパスで訓練された非常に単純なモデルによって生成された。改行と記号を追加することで少し改良したが、最初の行以外はすべて、この章で構築方法を学ぶモデルによって生成された歌詞だ。野生のコリーンが死ぬことに触れているのはちょっとクールだ-ジョン・スノウが登場する番組を見たことがあれば、その理由がわかるだろう!

最後の数章では、テキストベースのデータでPyTorchをどのように使うことができるかを見てきた。最初にニューラルネットワークで処理できる数列にトークン化し、次に埋め込みを使ってベクトルを使ってセンチメントをシミュレートし、最後にディープニューラルネットワークとリカレントニューラルネットワークを使ってテキストを分類する。われわれは、小規模で単純な皮肉データセットを使って、このすべてがどのように機能するかを説明した。

この章では、既存のテキストを分類する代わりに、テキストを予測し、テキストを生成できるニューラルネットワークを作成する。

テキストのコーパスが与えられると、ネットワークはテキスト内の単語のパタ ーンを学習・理解しようと試みる。そうすることで、 、シードと呼ばれ る新しいテキストが与えられると、次に来る単語を予測できるようになる。一旦ネットワークがそれを得ると、シードと予測された単語が新しいシードとなり、次の単語を予測できるようになる。こうして、テキストのコーパスで訓練されると、ニューラルネットワークは同じようなスタイルで新しいテキストを書こうとすることができる。先の詩を作成するために、私はアイルランドの伝統的な歌から歌詞を集め、それを使ってニューラルネットワークを訓練し、単語を予測するのに使った。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

生成 Deep Learning ―絵を描き、物語や音楽を作り、ゲームをプレイする

生成 Deep Learning ―絵を描き、物語や音楽を作り、ゲームをプレイする

David Foster, 松田 晃一, 小沼 千絵
ダイナミックリチーミング 第2版 ―5つのパターンによる効果的なチーム編成

ダイナミックリチーミング 第2版 ―5つのパターンによる効果的なチーム編成

Heidi Helfand, 永瀬 美穂, 吉羽 龍太郎, 原田 騎郎, 細澤 あゆみ

Publisher Resources

ISBN: 9798341662636