Kapitel 5. Klassifizierung für die Textanalyse

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Stell dir vor, du arbeitest Ende der 1990er Jahre bei einem der großen E-Mail-Anbieter und bearbeitest eine immer größere Anzahl von E-Mails von Servern in der ganzen Welt. Die Verbreitung und Wirtschaftlichkeit von E-Mails hat sie zu einem Hauptkommunikationsmittel gemacht, und das Geschäft boomt. Leider nimmt auch die Zahl der Junk-E-Mails zu. Am harmloseren Ende des Spektrums steht die Werbung für Internetprodukte, die jedoch in einer Flut von E-Mails verschickt wird, die deine Server stark belastet. Und weil E-Mails nicht reguliert sind, werden schädliche Nachrichten immer häufiger - immer mehr E-Mails enthalten falsche Werbung, Schneeballsysteme und gefälschte Investitionen. Was ist zu tun?

Du könntest damit beginnen, die E-Mail-Adressen oder IP-Adressen von Spammern auf eine schwarze Liste zu setzen oder nach Schlüsselwörtern zu suchen, die darauf hindeuten, dass eine E-Mail Spam ist. Da es aber relativ einfach ist, eine neue E-Mail- oder IP-Adresse zu bekommen, umgehen Spammer auch deine gut gepflegten Blacklists. Schlimmer noch: Du stellst fest, dass die Blacklists und Whitelists nicht gewährleisten, dass gültige E-Mails durchkommen, und die Nutzer/innen sind unzufrieden. Du brauchst etwas Besseres, eine flexible und stochastische Lösung, die in großem Maßstab funktioniert: maschinelles Lernen. ...

Get Angewandte Textanalyse mit Python now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.