Skip to Content
PyTorch によるコーダーのための AI および ML
book

PyTorch によるコーダーのための AI および ML

by Laurence Moroney
July 2025
Intermediate to advanced
444 pages
7h 8m
Japanese
O'Reilly Media, Inc.
Content preview from PyTorch によるコーダーのための AI および ML

第2章 コンピュータ・ビジョン入門 コンピュータ・ビジョン入門

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com

第1章では、マシン学習の基本を紹介した。データとラベルを照合するためにニューラルネットワークを使ってプログラミングを始める方法を見たし、そこから、アイテムを区別するために使用できる規則を推論する方法を見た。

この章では、次の論理的なステップとして、これらの概念をコンピューター構想に応用することを考える。このプロセスでは、モデルが写真の内容を認識する方法を学習することで、写真の中にあるものを「見る」ことができるようになる。ここでは、服飾品の一般的なデータセットを使い、それらを区別できるモデルを構築し、服の種類の違いを「見る」ことができるようにする。

コンピュータ・ビジョンの仕組み

コンピュータ・ビジョンとは、単にピクセルを記憶するだけでなく、アイテムを認識するコンピュータの能力( )である。例えば、図2-1のような服を考えてみよう。これらは非常に複雑で、同じアイテムでもたくさんの種類がある。2つの靴を見てみよう。まったく違うが、靴であることに変わりはない!

図2-1. 衣服の例

しかし、靴であることに変わりはない!ここには、認識できるさまざまな衣料品がある。あなたはシャツ、コート、ドレスの違いを理解し、これらのアイテムがそれぞれ何であるかを基本的に知っている。しかし、衣類を見たことがない人にこれらをどう説明するだろうか?靴はどうだろう?この画像には2つの靴が写っているが、2つの靴には大きな違いがある。これもまた、第1章で話した規則ベースのプログラミングが破綻する可能性のある分野だ。規則で何かを説明することが不可能な場合もあるのだ。

もちろん、コンピューター構想もこの問題の例外ではない。しかし、あなたがどうやってこれらの項目を認識できるようになったかを考えてみよう。コンピューターも同じように学習できるのだろうか?答えはイエスだが、限界がある。この章の残りの部分では、ファッションMNISTと呼ばれるよく知られたデータセットを使って、コンピュータに衣類のアイテムを認識することを教える方法の例を見てみよう。

ファッションMNISTデータベース

アルゴリズムの学習とベンチマークのための基礎データセットの一つは、Yann LeCun、Corinna Cortes、Christopher Burgesによって作成されたMNIST(Modified National Institute of Standards and Technology)データベースである。このデータセットは、0から9までの70,000桁の手書き数字の画像からなり、画像は28×28グレースケールである。

ファッションMNISTは、同じレコード数、同じ画像寸法、同じクラス数を持つMNISTのドロップイン代替となるように設計されている。0から9までの数字の画像ではなく、Fashion MNISTには10種類の衣服の画像が含まれている。

図2-2にデータセットの内容の例( )を示す。この図では、3つの行がそれぞれの服の種類に分けられている。

図2-2. ファッションMNISTデータセットを探索する ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

生成 Deep Learning ―絵を描き、物語や音楽を作り、ゲームをプレイする

生成 Deep Learning ―絵を描き、物語や音楽を作り、ゲームをプレイする

David Foster, 松田 晃一, 小沼 千絵
ダイナミックリチーミング 第2版 ―5つのパターンによる効果的なチーム編成

ダイナミックリチーミング 第2版 ―5つのパターンによる効果的なチーム編成

Heidi Helfand, 永瀬 美穂, 吉羽 龍太郎, 原田 騎郎, 細澤 あゆみ

Publisher Resources

ISBN: 9798341662636