book

Deep Learning 向けの PyTorch プログラミング

Name: Deep Learning 向けの PyTorch プログラミング
Author: Ian Pointer
ISBN: 9798341650367

by Ian Pointer

May 2025

Intermediate to advanced

220 pages

3h 27m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
世界におけるディープラーニングの現状しかし、ディープラーニングとは一体何なのか、それを理解するのに博士号が必要なのか？PyTorchTensorFlowはどうなのか？本書で使用されている慣例コード例を使うオライリー・オンライン・ラーニング問い合わせ先謝辞
1.PyTorchを使い始める
カスタムDeep Learningマシンを構築するGPUCPU/マザーボードRAMストレージクラウドのDeep Learningグーグル・コラボラトリークラウド・プロバイダーどのクラウドプロバイダーを使うべきか？Jupyterノートブックを使うPyTorchをゼロからインストールするCUDAをダウンロードするアナコンダ最後に、PyTorchだ！(とJupyterノートブック）。テンソルテンソル演算子テンソル放送結論さらなる読み取り
2.PyTorchによる画像分類
我々の分類問題伝統的な挑戦その前にデータPyTorchとデータローダートレーニングデータセットを構築する検証データセットとテストデータセットを構築する最後にニューラルネットワークだ！アクティベーション関数Network+を作成する損失関数最適化トレーニングGPUで機能させるすべてをまとめる予測を立てるモデル・セービング結論さらなる読み取り
3.畳み込みニューラルネットワーク
最初の畳み込みモデルコンボリューションズプーリングドロップアウトCNNアーキテクチャの歴史アレックス・ネットインセプション/GoogLeNetVGGResNet他のアーキテクチャも利用できる！PyTorchで事前学習済みモデルを使うモデルの構造を調べるバッチノルムどのモデルを使うべきか？モデルのワンストップショッピングPyTorchハブ結論さらなる読み取り
4.転移学習とその他のトリック
ResNetによる転移学習学習率を発見する学習率の違いデータ補強トーチビジョン・トランスフォームズ色スペースとラムダ変換カスタム・トランスフォーム・クラス小さく始めて大きくする！アンサンブル結論さらなる読み取り
5.テキストの分類
リカレント・ニューラル・ネットワーク長期短期記憶ネットワークゲート付きリカレント・ユニットバイLSTM埋め込みトーチテキストデータを得る：ツイートするフィールドの定義語彙を増やすモデルを作成するトレーニングループを更新するツイートを分類するデータ補強ランダム挿入ランダム削除ランダムスワップバックトランスレーション補強とトーチテキストトランスファー・ラーニング？結論さらなる読み取り
6.音への旅
サウンドESC-50データセットデータセットを入手するJupyterでオーディオを再生するESC-50を探るSoXとLibROSAトーチャウディオESC-50データセットを構築するESC-50のCNNモデルこの周波数は私の宇宙だメル・スペクトログラム新しいデータセット野生のResNetが現れる学習率を発見するオーディオデータの補強トーチュオーディオ変換SoXエフェクト・チェーンスペックさらなる実験結論さらなる読み取り
7.PyTorch モデルのデバッグ
午前3時。あなたのデータは何をしているのか？テンソルボードTensorBoardをインストールするTensorBoardにデータを送信するPyTorchフック平均と標準偏差のプロットクラス活性化のマッピング炎のグラフpy-spyをインストールする炎のグラフを読み取る変貌の遅れを修正するGPUの問題をデバッグするGPUをチェックするグラデーション・チェックポイント結論さらなる読み取り
8.プロダクションにおけるPyTorch
モデル・サービングFlaskサービスを構築するモデルパラメータのセットアップDockerコンテナを構築するローカルストレージとクラウドストレージの比較ロギングと遠隔測定KubernetesでデプロイするGoogle Kubernetes Engineにセットアップするk8sクラスタの作成スケーリング・サービス更新と片付けトーチスクリプトトレーススクリプトトーチスクリプトの制限libTorch で作業するlibTorchとHello Worldを入手するTorchScriptモデルをインポートする結論さらなる読み取り
9.野生のPyTorch
データ補強：ミックスとスムージングミックスアップラベルの平滑化コンピュータを強化する！超解像入門GAN入門贋作者と批評家GANをトレーニングするモード崩壊の危険性エスルガン画像検出のさらなる冒険オブジェクト検出より高速なR-CNNとマスクR-CNN敵対的サンプルブラックボックス攻撃敵の攻撃から身を守る目に映る以上のもの：トランスフォーマーのアーキテクチャ注意を払う必要なのは注意力だけだバートファストバートGPT-2GPT-2でテキストを生成するULMFiT何を使うか？結論さらなる読み取り

インデックス

Content preview from Deep Learning 向けの PyTorch プログラミング

第6章. 音への旅

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

ディープラーニングの最も成功したアプリケーションのひとつは、私たちが毎日持ち歩いているものだ。SiriにしてもGoogle Nowにしても、両システムやAmazonのAlexaを動かしているエンジンはニューラルネットワークだ。この章では、PyTorchのtorchaudio 。このライブラリを使って、畳み込みベースのモデルで音声データを分類するパイプラインを構築する方法を学ぶ。その後、画像で学んだトリックのいくつかを使って、ESC-50オーディオデータセットで良い精度を得ることができるような、別のアプローチを提案する。

その前に、音そのものを見てみよう。音とは何だろうか？そしてそれは、データから洞察を得るためにどのようなニューラルネットを使うべきかの手がかりとなるのだろうか？

サウンド

音は空気の振動によって作成される。私たちが耳にする音はすべて、高圧と低圧の組み合わせであり、図6-1のような波形で表されることが多い。この図では、原点より上の波が高圧で、下の部分が低圧である。

図6-2は、より複雑な曲の波形を示している。

デジタル・サウンドでは、この波形を1秒間に何度もサンプリングし、CD品質のサウンドでは伝統的に44,100回サンプリングし、各サンプル点における波の振幅値を保存する。時間tでは、1つの値が保存される。これは、1つの値（グレースケール画像の場合）を保存するためにxと yの2つの値を必要とする画像とは少し異なる。ニューラルネットワークに畳み込みフィルターを使う場合、画像に使っていた2Dフィルターではなく、1Dフィルターが必要になる。

音についてもう少しわかったところで、使用するデータセットを見て、もう少し慣れてみよう。

ESC-50データセット

環境音分類（ESC）データセットは、フィールド録音を集めたもので、それぞれ5秒の長さで、50のクラス（例えば、犬の吠え声、いびき、ドアをノックする音）のうちの1つに代入されている。この章の残りの部分では、このセットを使って、音声を分類する2つの方法を実験し、また、torchaudio を使って、音声の読み込みと操作を簡単にする方法を探る。

データセットを入手する

ESC-50データセットはWAVファイルのセットである。Gitリポジトリをクローンすることでダウンロードできる：

git clone https://github.com/karoldvl/ESC-50

あるいは、curlを使ってリポジトリ全体をダウンロードすることもできる：

curl https://github.com/karoldvl/ESC-50/archive/master.zip

すべてのWAVファイルは、このようなファイル名でaudioディレクトリに保存される：

1-100032-A-0.wav

ファイル名の最後の数字を気にするのは、このサウンドクリップがどのクラスに代入されたかを知るためだ。ファイル名の他の部分は我々にとっては重要ではなく、ESC-50の元となったより大きなFreesoundデータセットに関係することがほとんどだ（1つ例外があるが、これについては後ほど説明する）。もっと詳しく発見したい人は、ESC-50のリポジトリにある ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

生成 Deep Learning 第2版 ―絵を描き、物語や音楽を作り、ゲームをプレイする

Publisher Resources

ISBN: 9798341650367

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Deep Learning 向けの PyTorch プログラミング

by Ian Pointer

第6章. 音への旅

サウンド

図6-1. 正弦波

図6-2. 歌の波形

ESC-50データセット

データセットを入手する

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

生成 Deep Learning 第2版 ―絵を描き、物語や音楽を作り、ゲームをプレイする

生成 Deep Learning ―絵を描き、物語や音楽を作り、ゲームをプレイする

直感 Deep Learning ―Python×Kerasでアイデアを形にするレシピ

Python Distilled ―プログラミング言語Pythonのエッセンス

Publisher Resources

第6章. 音への旅

サウンド

図6-1. 正弦波

図6-2. 歌の波形

ESC-50データセット

データセットを入手する

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

生成 Deep Learning 第2版 ―絵を描き、物語や音楽を作り、ゲームをプレイする

生成 Deep Learning ―絵を描き、物語や音楽を作り、ゲームをプレイする

直感 Deep Learning ―Python×Kerasでアイデアを形にするレシピ

Python Distilled ―プログラミング言語Pythonのエッセンス

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.