3章モデルアーキテクチャ

2章 機械学習モデル」では、ピクセルを独立した入力として扱う機械学習モデルを紹介しました。従来の全結合型ニューラルネットワークの層は、隣接するピクセルが高い相関性を持っているという性質を効率よく利用していないため、画像を扱う場合、そのままでは高い性能が出ません(図3-1)。

画像のピクセルに全結合層を適用すると、ピクセルは独立した入力として扱われ、画像の隣接したピクセルが協調して形を構成していることは無視される

図3-1 画像のピクセルに全結合層を適用すると、ピクセルは独立した入力として扱われ、画像の隣接したピクセルが協調して形を構成していることは無視される

また、隣接するピクセルは連携して形(線や円弧などの)を作り、それらの形が連携して物体の認識可能な部分(花の茎や花びらなど)を作るというような2次元的な階層性があると考えることもできます。しかし、複数の層を全結合する方法ではこうした仮説を効率よく学習できるようにはなっていません†1

[†1] 訳注:2021年中頃には、多層パーセプションのみを使用しながらも、画像特有のこうした特徴を抽出するためのさまざまな工夫を盛り込むことで高い性能を発揮したMLP-Mixerなどのモデルが発表され話題になりました。詳しくは、本章末の日本語版コラムを参照してください。

本章では、画像特有の性質を利用した手法やモデルのアーキテクチャを紹介しながら、この問題に対処していきます。

本章のコードは、本書のGitHubリポジトリ(https://github.com/takumiohym/practical-ml-vision-book-ja)の03_image_models ...

Get コンピュータビジョンのための実践機械学習 ―モデルアーキテクチャからMLOpsまで now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.