Anhang A. Ergänzendes Material für Kapitel 2
Mehr über Metriken
In unserer Diskussion über das Clustering haben wir in erster Linie den euklidischen Standardabstand zwischen Vektoren in einem Vektorraum verwendet:
Der euklidische Abstand ist auch als L2-Norm bekannt. Es gibt noch einige andere Metriken, die häufig in Anwendungen verwendet werden:
-
Eine Variante des euklidischen Abstands ist die L1-Norm, auch bekannt als Manhattan-Abstand (weil sie die Anzahl der "Blöcke" zwischen zwei Punkten auf einem Gitter zählt):
-
Eine andere ist die L∞-Norm, die wie folgt definiert ist:
-
Für Vektoren mit binären Werten oder Bits kannst du die Hamming-Distanz verwenden, also die Anzahl der Bits, die x und y gemeinsam haben. Dies kann wie folgt berechnet werden:
Dabei ist H(v) das Hamming-Gewicht, also die Anzahl der "1"-Bits in v. Wenn die Punkte, die du vergleichst, eine unterschiedliche Bitlänge haben, muss dem kürzeren Punkt eine Null vorangestellt werden.
-
Für Listen kannst du die Jaccard-Ähnlichkeit verwenden:
Die Jaccard-Ähnlichkeit berechnet die Anzahl der gemeinsamen Elemente von x und y, normiert auf die Gesamtzahl der Elemente in der Schnittmenge. Eine nützliche Eigenschaft der Jaccard-Ähnlichkeit ist, dass du damit Listen mit unterschiedlicher Länge vergleichen kannst.
DieL1- undL2-Metriken in Vektorräumen leiden unter dem so genannten "Fluch der Dimensionalität". Dieser ...
Get Maschinelles Lernen und Sicherheit now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.