KAPITEL 20

Clustering

Wo wir solche Cluster hatten, die uns vornehm wild, nicht wahnsinnig werden ließen.

– Robert Herrick

Die meisten Algorithmen in diesem Buch gehören in die Kategorie des überwachten Lernens. Sie gehen von einem annotierten Datensatz aus und verwenden diesen als Grundlage für Vorhersagen bei neuen, nicht annotierter Daten. Clustering ist dagegen ein Beispiel für unüberwachtes Lernen, wobei wir ausschließlich mit nicht annotierten Daten arbeiten (oder wenn unsere Daten annotiert sind, ignorieren wir das).

Die Idee

Jedes Mal, wenn Sie eine Datenquelle betrachten, werden die Daten irgendeine Art von Cluster bilden. Ein Datensatz der Wohnorte von Millionären enthält vermutlich Cluster an Orten wie Beverly Hills und Manhattan. ...

Get Einführung in Data Science, 2nd Edition now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.