Kapitel 7. Erkennung von Anomalien bei nicht-normalisierten Daten

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In Kapitel 6 habe ich dir drei Möglichkeiten gezeigt, wie du Ausreißer sichtbar machen kannst, wenn deine Daten normal verteilt sind. Oft stößt du jedoch auf Daten, die nicht normalverteilt sind. Methoden, die von einer Normalverteilung ausgehen, könnten zu falschen Schlussfolgerungen oder Fehlentscheidungen bei dir und deinen Interessengruppen führen. Deshalb sind die in Kapitel 4 behandelten Sondierungstaktiken so wichtig.

In diesem Kapitel zeige ich dir drei Methoden, die du anwenden kannst, um Ausreißer zu visualisieren, wenn du mit nicht-normalisierten Daten arbeitest. Die Methoden sind die mittlere absolute Abweichung, Tukey's Zäune und der modifizierte z-Score-Test.

Verstehen der absoluten Medianabweichung

Die absolute Medianabweichung (MAD) ist ein statistisches Maß, das die Streuung oder Variabilität eines Datensatzes quantifiziert. Sie wird berechnet, indem man die absolute Abweichung jedes Datenpunktes ermittelt, indem man den Median von jedem Wert abzieht und den absoluten Wert des Ergebnisses nimmt. Dann ermittelst du den Median der absoluten Abweichungen, was den MAD ergibt. Die mathematische Formel zur Berechnung des MAD lautet wie folgt:

MAD = Median ( | X i - Median | )

wo

MAD = Mediane absolute Abweichung

Xi = jeder Wert

Median = mittlerer Wert

Get Statistisches Tableau now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.