Kapitel 48. Vertiefung: Gaußsche Mischungsmodelle

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Das im vorigen Kapitel untersuchte k-means-Clustermodell ist einfach und relativ leicht zu verstehen, aber seine Einfachheit führt zu praktischen Herausforderungen bei seiner Anwendung. Insbesondere die nicht-probabilistische Natur von k-means und die Verwendung des einfachen Abstands zum Clusterzentrum, um die Clusterzugehörigkeit zu bestimmen, führt in vielen realen Situationen zu einer schlechten Leistung. In diesem Kapitel werfen wir einen Blick auf Gaußsche Mischungsmodelle, die als Erweiterung der Ideen hinter k-means betrachtet werden können, aber auch ein leistungsfähiges Werkzeug für Schätzungen jenseits des einfachen Clusterns sein können.

Wir beginnen mit den Standardimporten:

In [1]: %matplotlib inline
        import matplotlib.pyplot as plt
        plt.style.use('seaborn-whitegrid')
        import numpy as np

Gaußsche Mischungen motivieren: Schwachstellen von k-Means

Werfen wir einen Blick auf einige der Schwächen von k-means und überlegen wir, wie wir das Clustermodell verbessern können. Wie wir im vorherigen Kapitel gesehen haben, findet k-means bei einfachen, gut getrennten Daten geeignete Clustering-Ergebnisse.

Wenn wir zum Beispiel einfache Datenblöcke haben, kann der k-means Algorithmus diese Cluster schnell auf eine Weise beschriften, die dem entspricht, was wir mit dem Auge machen würden (siehe Abbildung ...

Get Python Data Science Handbook, 2. Auflage now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.