3章基礎からの発展: 画像の特徴量検出

「2章 コンピュータビジョン入門」では、最初のコンピュータビジョンとして、Fashion MNISTデータセットを入力として、それぞれを衣類の種類(またはクラス)を表す10個のラベルに一致させる簡単なニューラルネットワークを作成しました。衣類の種類を検出するのには非常に適したネットワークが作成できましたが、明らかな欠点もありました。このニューラルネットワークは、小さなモノクロ画像で学習されていますが、その中には1つの衣類しか含まれておらず、しかもその服は画像の中央に配置されています。

このモデルを次のレベルに引き上げるには、画像内の特徴量を検出することが必要です。例えば、単に画像のピクセルを見るのではなく、画像を構成要素に絞り込む方法あるとしたらどうでしょうか。生のピクセルの代わりに、構成要素を一致させることで、画像の内容をより効果的に検出することができます。前章で使用したFashion MNISTデータセットを考えてみましょう。靴を検出するとき、ニューラルネットワークは、画像の下部に集まった多数の暗いピクセルを靴底とみなして活性化された可能性があります。しかし、靴が中央になく、枠内に収まっていない場合、この方法は使えません。

特徴量を検出する方法の1つとして、写真編集や画像加工で用いられるよく知られた手法があります。PhotoshopやGIMPのようなツールで画像のシャープやぼかしを操作したことはないでしょうか。これは画像のピクセルに数学的なフィルタを適用します。こうしたフィルタ別の表現が畳み込み(convolution)であり、これをニューラルネットワークで使用すると「畳み込みニューラルネットワーク(CNN:Convolutional ...

Get 動かして学ぶAI・機械学習の基礎 ―TensorFlowによるコンピュータビジョン、自然言語処理、時系列データの予測とデプロイ now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.