April 2019
Intermediate to advanced
214 pages
5h 57m
German
Eine Bag-of-Words-Darstellung ist einfach zu erzeugen, aber bei Weitem nicht perfekt. Zählen wir alle Wörter als gleichwertig, werden am Ende einige Wörter übermäßig gewichtet. Erinnern wir uns an das Beispiel von Emma und dem Raben aus Kapitel 3. Wir suchen eine Darstellung des Dokuments, die die beiden Hauptfiguren hervorhebt. Das Wort »Emma« kommt viermal vor, »Rabe« bzw. »Raben« dreimal, aber »und« erscheint ganze sechs Male und »er« und »der« jeweils auch dreimal. Die Hauptfiguren stechen bei einer einfachen Häufigkeitszählung nicht hervor. Das ist ein Problem.
Es wäre auch gut, wenn Wörter wie »prächtig«, »glänzen«, »eingeschüchtert«, »zögernd« und »beherrschte« ausgewählt ...
Read now
Unlock full access