5章畳み込みニューラルネットワーク

5.1 人間の視覚におけるニューロン

人間の視覚は信じられないほど高度です。視界の中にある複数の物を、考えたりためらったりすることなく一瞬で識別できます。対象物を特定できるだけでなく、奥行きを知覚し、輪郭を認識して、対象物と背景を区別できます。我々の眼は色のデータを含む無加工のボクセル(体積を持つピクセル)データを取り込み、脳はこのデータを加工して意味のある基本的要素(直線、曲線、形状など)を生み出します。その結果、例えば見ている対象が飼い猫だといったことがわかります†1

[†1] Hubel, David H., and Torsten N. Wiesel. "Receptive fields and functional architecture of monkey striate cortex." The Journal of Physiology 195.1 (1968): 215-243.

人間の視覚の基本となるのがニューロンです。まず専門のニューロンが光の情報を眼から取り込みます†2。この光の情報は前処理を経て、視覚を司る脳の皮質に送られて最後に分析されます。これらの処理すべてをニューロンが一手に引き受けています。したがって、我々のニューラルネットワークを拡張すればより良いコンピュータービジョンのシステムを作れるのではと考えるのは自然なことです。この章では人間の視覚に関する知識を元に、画像処理向けの効率的なディープラーニングのモデルを作成します。まずは画像分析に関する従来のアプローチを検討し、これらの欠点を明らかにします。

[†2] Cohen, Adolph I. "Rods and Cones." Physiology of ...

Get 実践 Deep Learning ―PythonとTensorFlowで学ぶ次世代の機械学習アルゴリズム now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.