Kapitel 10: Texte repräsentieren und auswerten
Fundamentale Konzepte:
-
Die Bedeutung von für Data Mining geeigneter Datenrepräsentation
-
Repräsentation von Text für Data Mining
Exemplarische Verfahren:
-
Das Bag-of-words-Modell
-
Berechnung des TFIDF-Maßes
-
N-Gramme
-
Stemming (Stammformreduktion)
-
Extraktion von Eigennamen
-
Topic Models
Wir haben bislang eine wichtige Phase des Data-Mining-Prozesses vernachlässigt oder ausgeklammert: die Datenaufbereitung. Leider liegen uns Daten meist nicht in Form von Merkmalsvektoren vor, die die meisten Data-Mining-Verfahren als Eingabe erwarten. Daten stehen exakt so zur Verfügung, wie sie gesammelt wurden (für jeweils eine bestimmte Aufgabe). Wenn wir die zahlreichen verfügbaren Data-Mining-Tools ...
Get Data Science für Unternehmen - Data Mining und datenanalytisches Denken praktisch anwenden now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.