Kapitel 13. Bildverarbeitung und Texterkennung
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Von Googles selbstfahrenden Autos bis hin zu Verkaufsautomaten, die Falschgeld erkennen - maschinelles Sehen ist ein riesiges Feld mit weitreichenden Zielen und Auswirkungen. In diesem Kapitel geht es um einen kleinen Aspekt dieses Bereichs: die Texterkennung - genauer gesagt darum, wie man textbasierte Bilder, die man im Internet gefunden hat, mit Hilfe verschiedener Python-Bibliotheken erkennt und verwendet.
Die Verwendung eines Bildes anstelle von Text ist eine gängige Technik, wenn du nicht willst, dass Text von Bots gefunden und gelesen wird. Das sieht man oft in Kontaktformularen, in denen eine E-Mail-Adresse teilweise oder ganz als Bild dargestellt wird. Je nachdem, wie geschickt es gemacht wird, fällt es menschlichen Betrachtern vielleicht gar nicht auf, aber Bots haben es schwer, diese Bilder zu lesen, und diese Technik reicht aus, um die meisten Spammer davon abzuhalten, deine E-Mail-Adresse zu bekommen.
CAPTCHAs ( ) machen sich natürlich die Tatsache zunutze, dass Benutzer/innen Sicherheitsbilder lesen können, die meisten Bots aber nicht. Manche CAPTCHAs sind schwieriger als andere, ein Thema, das wir später in diesem Buch behandeln werden.
Aber CAPTCHAs sind nicht der einzige Ort im Internet, an dem Scraper Hilfe bei der Übersetzung von Bildern in Text benötigen. Auch werden heutzutage viele ...
Get Web Scraping mit Python, 2. Auflage now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.