Kapitel 10. Bildähnlichkeitserkennung mitDeep Learning und PySpark LSH

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Ob du sie in den sozialen Medien oder in E-Commerce-Shops siehst, Bilder sind aus unserem digitalen Leben nicht mehr wegzudenken. Tatsächlich war es ein Bilddatensatz - ImageNet - der eine Schlüsselkomponente für die aktuelle Deep-Learning-Revolution darstellte. Die bemerkenswerte Leistung eines Klassifizierungsmodells bei der ImageNet 2012 Challenge war ein wichtiger Meilenstein und führte zu großer Aufmerksamkeit. Kein Wunder also, dass du als Data-Science-Praktiker/in wahrscheinlich irgendwann mit Bilddaten in Berührung kommst.

In diesem Kapitel sammelst du Erfahrungen mit der Skalierung eines Deep-Learning-Workflows für eine visuelle Aufgabe, nämlich die Erkennung von Bildähnlichkeiten, mit PySpark. Die Aufgabe, Bilder zu erkennen, die einander ähnlich sind, ist für Menschen intuitiv, aber es ist eine komplexe Rechenaufgabe. Im großen Maßstab wird es sogar noch schwieriger. In diesem Kapitel stellen wir eine ungefähre Methode zum Auffinden ähnlicher Objekte vor, das sogenannte Locality Sensitive Hashing (LSH), und wenden es auf Bilder an. Wir nutzen Deep Learning, um Bilddaten in eine numerische Vektordarstellung umzuwandeln. Auf die so entstandenen Vektoren wird der LSH-Algorithmus von PySpark angewendet, mit dem wir ähnliche Bilder finden können, wenn wir ein neues Bild ...

Get Erweiterte Analytik mit PySpark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.