Wortvektoren

Normalerweise bereitet man die Daten zur Clusteranalyse auf, indem man eine gemeinsame Menge numerischer Attribute bestimmt, die zum Vergleichen der Elemente genutzt werden kann. Das ähnelt sehr dem Vorgehen in Kapitel 2, bei dem die Bewertungen der Kritiker für die Menge der gemeinsam bewerteten Filme verglichen wurden und das Vorhandensein oder Nichtvorhandensein eines Lesezeichens für del.icio.us-Benutzer in eine 1 oder 0 übersetzt wurde.

Einordnen der Blogger

Dieses Kapitel wird ein paar Beispiel-Datenbestände nutzen. In der ersten Datenmenge werden die zu gruppierenden Elemente 120 Top-Blogs sein und die Daten, aufgrund deren sie geclustert werden sollen, das Vorkommen bestimmter Wörter in den Blog-Feeds. Eine kleine Untermenge ...

Get Kollektive Intelligenz analysieren, programmieren und nutzen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.