13.11. Dublettenbewertung mit Levenshtein-Distanz

Die Levenshtein[]-Distanz bezeichnet ein Maß für den Unterschied zweier Zeichenketten. Es richtet sich dabei nach der minimalen Anzahl der Operationen Einfügen, Löschen und Ersetzen von Zeichen, die notwendig sind, um eine Zeichenkette in die andere zu überführen. Die Variante Damerau-Levenshtein erweitert die Funktionsweise von Levenshtein um die Möglichkeit, zwei vertauschte Zeichen zu identifizieren.

[] Benannt nach dem russischen Wissenschaftler Wladimir Lewenstein, der diesen Ansatz 1965 erfand.

Diese Funktion ist daher für die Dublettensuche geeignet, für die ein einfacher Vergleich zu streng wäre. Somit können die Grenzwerte für die Suche immer weiter abgesenkt werden, um zu sehen, wie ...

Get SQL Server 2008-Programmierung mit der CLR und .NET now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.