Skip to Content
PyTorch によるコーダーのための AI および ML
book

PyTorch によるコーダーのための AI および ML

by Laurence Moroney
July 2025
Intermediate to advanced
444 pages
7h 8m
Japanese
O'Reilly Media, Inc.
Content preview from PyTorch によるコーダーのための AI および ML

第3章. 基本を超える:画像中の特徴を検出する

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com

第2章では、ファッションMNISTデータセットの入力ピクセルを10個のラベルにマッチさせる単純なニューラルネットワークを作成することで、コンピュータ・ビジョンを始める方法 を学んだ。そして、服の種類を検出するのに非常に優れたネットワークを作成したが、明らかな欠点があった。あなたのニューラルネットワークは小さなモノクロ画像でトレーニングされ、それぞれの画像には服が1点しかコンテナに入っておらず、各アイテムは画像内の中央に配置されていた。

モデルを次のレベルに引き上げるには、画像の特徴を検出できるようにする必要がある。例えば、単に画像の生のピクセルを見るのではなく、画像を構成する要素までフィルタリングできたらどうだろう?生のピクセルの代わりにそれらの要素をマッチングさせれば、モデルはより効果的に画像の内容を検出できるようになる。例えば、前章で使用したファッションMNISTデータセットを考えてみよう。靴を検出するとき、ニューラルネットワークは画像の底に集まったたくさんの暗いピクセルによって活性化されたかもしれない。しかし、靴が中央になく、フレームを埋めていなければ、このロジックは成り立たない。

特徴を検出するメソッドのひとつは、写真や画像処理の方法論に由来する。PhotoshopやGIMPのようなツールを使って画像をシャープにしたことがあるなら、画像のピクセルに作用する数学的フィルタを使ったことがあるだろう。このようなフィルターが行うことを別の言葉で表すとコンボリューション(畳み込み)で、このようなフィルターをニューラルネットワークで使用することで、畳み込みニューラルネットワーク(CNN)を作成することになる。

この章では、まず畳み込みを使って画像の特徴を検出する方法について学ぶ。次に、画像内の特徴に基づいて画像を分類する方法について深く掘り下げる。さらに、より多くの特徴を得るための画像の補強や、他の人が学習した既存の特徴を取り込むための転移学習についても調べ、ドロップアウトを使ってモデルを最適化する方法についても簡単に説明する。

畳み込み

畳み込みとは、単純に 、ピクセルの新しい値を得るために、ピクセルとその近傍のピクセルを掛け合わせるために使われる重みのフィルタリングである。例えば、ファッションMNISTのアンクルブーツ画像とそのピクセル値を考えてみよう(図3-1参照)。

図3-1. 畳み込みによるアンクルブーツ

選択範囲の真ん中のピクセルを見ると、192という値を持っていることがわかる。(Fashion MNISTはピクセル値が0から255までのモノクロ画像を使用していることを思い出してほしい)。上と左のピクセルは値0、すぐ上のピクセルは値64などである。

同じ3×3グリッドでフィルタを定義すると、元の値の下に示すように、そのピクセルの新しい値を計算して変換することができる。これは、グリッド内の各ピクセルの現在の値に、フィルタリング・グリッド内の同じ位置の値を掛け合わせ、合計することで行う。この合計が現在のピクセルの新しい値となり、画像内のすべてのピクセルについてこの計算を繰り返す。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

生成 Deep Learning ―絵を描き、物語や音楽を作り、ゲームをプレイする

生成 Deep Learning ―絵を描き、物語や音楽を作り、ゲームをプレイする

David Foster, 松田 晃一, 小沼 千絵
ダイナミックリチーミング 第2版 ―5つのパターンによる効果的なチーム編成

ダイナミックリチーミング 第2版 ―5つのパターンによる効果的なチーム編成

Heidi Helfand, 永瀬 美穂, 吉羽 龍太郎, 原田 騎郎, 細澤 あゆみ

Publisher Resources

ISBN: 9798341662636