February 2008
Intermediate to advanced
400 pages
10h
German
Normalerweise bereitet man die Daten zur Clusteranalyse auf, indem man eine gemeinsame Menge numerischer Attribute bestimmt, die zum Vergleichen der Elemente genutzt werden kann. Das ähnelt sehr dem Vorgehen in Kapitel 2, bei dem die Bewertungen der Kritiker für die Menge der gemeinsam bewerteten Filme verglichen wurden und das Vorhandensein oder Nichtvorhandensein eines Lesezeichens für del.icio.us-Benutzer in eine 1 oder 0 übersetzt wurde.
Einordnen der Blogger
Dieses Kapitel wird ein paar Beispiel-Datenbestände nutzen. In der ersten Datenmenge werden die zu gruppierenden Elemente 120 Top-Blogs sein und die Daten, aufgrund deren sie geclustert werden sollen, das Vorkommen bestimmter Wörter in den Blog-Feeds. Eine kleine Untermenge ...