第2章 コンピュータ・ビジョン入門 コンピュータ・ビジョン入門
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
第1章では、マシン学習の基本を紹介した。データとラベルを照合するためにニューラルネットワークを使ってプログラミングを始める方法を見たし、そこから、アイテムを区別するために使用できる規則を推論する方法を見た。
この章では、次の論理的なステップとして、これらの概念をコンピューター構想に応用することを考える。このプロセスでは、モデルが写真の内容を認識する方法を学習することで、写真の中にあるものを「見る」ことができるようになる。ここでは、服飾品の一般的なデータセットを使い、それらを区別できるモデルを構築し、服の種類の違いを「見る」ことができるようにする。
コンピュータ・ビジョンの仕組み
コンピュータ・ビジョンとは、単にピクセルを記憶するだけでなく、アイテムを認識するコンピュータの能力( )である。例えば、図2-1のような服を考えてみよう。これらは非常に複雑で、同じアイテムでもたくさんの種類がある。2つの靴を見てみよう。まったく違うが、靴であることに変わりはない!
図2-1. 衣服の例
しかし、靴であることに変わりはない!ここには、認識できるさまざまな衣料品がある。あなたはシャツ、コート、ドレスの違いを理解し、これらのアイテムがそれぞれ何であるかを基本的に知っている。しかし、衣類を見たことがない人にこれらをどう説明するだろうか?靴はどうだろう?この画像には2つの靴が写っているが、2つの靴には大きな違いがある。これもまた、第1章で話した規則ベースのプログラミングが破綻する可能性のある分野だ。規則で何かを説明することが不可能な場合もあるのだ。
もちろん、コンピューター構想もこの問題の例外ではない。しかし、あなたがどうやってこれらの項目を認識できるようになったかを考えてみよう。コンピューターも同じように学習できるのだろうか?答えはイエスだが、限界がある。この章の残りの部分では、ファッションMNISTと呼ばれるよく知られたデータセットを使って、コンピュータに衣類のアイテムを認識することを教える方法の例を見てみよう。
ファッションMNISTデータベース
アルゴリズムの学習とベンチマークのための基礎データセットの一つは、Yann LeCun、Corinna Cortes、Christopher Burgesによって作成されたMNIST(Modified National Institute of Standards and Technology)データベースである。このデータセットは、0から9までの70,000桁の手書き数字の画像からなり、画像は28×28グレースケールである。
ファッションMNISTは、同じレコード数、同じ画像寸法、同じクラス数を持つMNISTのドロップイン代替となるように設計されている。0から9までの数字の画像ではなく、Fashion MNISTには10種類の衣服の画像が含まれている。
図2-2にデータセットの内容の例( )を示す。この図では、3つの行がそれぞれの服の種類に分けられている。
図2-2. ファッションMNISTデータセットを探索する ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access