Kapitel 10: Texte repräsentieren und auswerten

Fundamentale Konzepte:

Die Bedeutung von für Data Mining geeigneter Datenrepräsentation
Repräsentation von Text für Data Mining

Exemplarische Verfahren:

Das Bag-of-words-Modell
Berechnung des TFIDF-Maßes
N-Gramme
Stemming (Stammformreduktion)
Extraktion von Eigennamen
Topic Models

Wir haben bislang eine wichtige Phase des Data-Mining-Prozesses vernachlässigt oder ausgeklammert: die Datenaufbereitung. Leider liegen uns Daten meist nicht in Form von Merkmalsvektoren vor, die die meisten Data-Mining-Verfahren als Eingabe erwarten. Daten stehen exakt so zur Verfügung, wie sie gesammelt wurden (für jeweils eine bestimmte Aufgabe). Wenn wir die zahlreichen verfügbaren Data-Mining-Tools ...

Get Data Science für Unternehmen - Data Mining und datenanalytisches Denken praktisch anwenden now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

Data Science für Unternehmen - Data Mining und datenanalytisches Denken praktisch anwenden by Tom Fawcett, Foster Provost

Kapitel 10: Texte repräsentieren und auswerten

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly