Kapitel 3. Bildvision
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In Kapitel 2 haben wir uns mit Modellen für maschinelles Lernen beschäftigt, die Pixel als unabhängige Eingaben behandeln. Herkömmliche vollverknüpfte neuronale Netze schneiden bei Bildern schlecht ab, weil sie die Tatsache nicht ausnutzen, dass benachbarte Pixel stark korreliert sind (siehe Abbildung 3-1). Außerdem werden bei der vollständigen Verknüpfung mehrerer Schichten keine besonderen Vorkehrungen für die 2D-hierarchische Natur von Bildern getroffen. Nahe beieinander liegende Pixel arbeiten zusammen, um Formen zu bilden (z. B. Linien und Bögen), und diese Formen wiederum arbeiten zusammen, um erkennbare Teile eines Objekts zu bilden (z. B. den Stiel und die Blütenblätter einer Blume).
In diesem Kapitel werden wir Abhilfe schaffen, indem wir uns Techniken und Modellarchitekturen ansehen, die sich die besonderen Eigenschaften von Bildern zunutze machen.
Tipp
Der Code für dieses Kapitel befindet sich im Ordner 03_image_models im GitHub-Repository des Buches. Wir geben die Dateinamen für die Code-Beispiele und die Notizbücher an, wo dies möglich ist.
Get Praktisches maschinelles Lernen für Computer Vision now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.