KAPITEL 7

Verarbeiten von Textdaten

In Kapitel 4 haben wir über zwei Arten von Merkmalen gesprochen, die Eigenschaften von Daten repräsentieren können: kontinuierliche Merkmale, die eine Quantität beschreiben, und kategorische Merkmale, die Elemente aus einer festgelegten Liste enthalten. In vielen Anwendungen gibt es eine dritte Art Merkmal, nämlich Text. Möchten wir beispielsweise eine E-Mail als erwünschte Nachricht oder Spam einordnen, enthält der Inhalt der E-Mail mit Sicherheit wichtige Informationen für diese Klassifizierungsaufgabe. Oder uns könnte die Meinung eines Politikers zur Immigration interessieren. Dabei können uns seine Reden oder Tweets von Nutzen sein. Im Kundendienst möchte man häufig wissen, ob eine Nachricht eine Beschwerde ...

Get Einführung in Machine Learning mit Python now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.