KAPITEL 18

Clustern

Clustern ist eine Technik des unüberwachten maschinellen Lernens, mit deren Hilfe eine Gruppe in Kohorten eingeteilt wird. Sie ist unüberwacht, da wir dem Modell keine Markierungen vorgeben; es betrachtet einfach die Merkmale und bestimmt, welche Datenpunkte einander ähneln und zum selben Cluster gehören. In diesem Kapitel werden wir uns den K-Means- und den hierarchischen Clusteralgorithmus ansehen. Dabei werden wir wieder den Titanic-Datensatz anhand verschiedener Methoden untersuchen.

K-Means-Algorithmus

Der K-Means-Algorithmus verlangt vom Anwender, die Anzahl »k« der Cluster zu wählen. Er legt dann zufällig k Schwerpunkte fest und ordnet jeden Datenpunkt anhand seiner Abstände zu den Schwerpunkten einem Cluster zu. Daraufhin ...

Get Machine Learning – Die Referenz now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.