Kapitel 3. Bildvision

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In Kapitel 2 haben wir uns mit Modellen für maschinelles Lernen beschäftigt, die Pixel als unabhängige Eingaben behandeln. Herkömmliche vollverknüpfte neuronale Netze schneiden bei Bildern schlecht ab, weil sie die Tatsache nicht ausnutzen, dass benachbarte Pixel stark korreliert sind (siehe Abbildung 3-1). Außerdem werden bei der vollständigen Verknüpfung mehrerer Schichten keine besonderen Vorkehrungen für die 2D-hierarchische Natur von Bildern getroffen. Nahe beieinander liegende Pixel arbeiten zusammen, um Formen zu bilden (z. B. Linien und Bögen), und diese Formen wiederum arbeiten zusammen, um erkennbare Teile eines Objekts zu bilden (z. B. den Stiel und die Blütenblätter einer Blume).

In diesem Kapitel werden wir Abhilfe schaffen, indem wir uns Techniken und Modellarchitekturen ansehen, die sich die besonderen Eigenschaften von Bildern zunutze machen.

Tipp

Der Code für dieses Kapitel befindet sich im Ordner 03_image_models im GitHub-Repository des Buches. Wir geben die Dateinamen für die Code-Beispiele und die Notizbücher an, wo dies möglich ist.

Abbildung 3-1. Die Anwendung einer vollständig verknüpften Schicht auf alle Pixel eines Bildes behandelt die Pixel als unabhängige Eingaben und ignoriert, dass benachbarte Pixel ...

Get Praktisches maschinelles Lernen für Computer Vision now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.