Kapitel 6. Finden der Hamming-Distanz: Zählen von Punktmutationen
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Die Hamming-Distanz, benannt nach dem im Vorwort erwähnten Richard Hamming, ist die Anzahl der Änderungen, die erforderlich sind, um eine Zeichenkette in eine andere umzuwandeln.Sie ist eine Metrik, um die Ähnlichkeit von Sequenzen zu messen. Ich habe eine Reihe anderer Metriken dafür geschrieben, angefangen in Kapitel 1 mit der Tetranukleotidhäufigkeit und weiter in Kapitel 5 mit dem GC-Gehalt. Während letzteres sehr aufschlussreich sein kann, da kodierende Regionen in der Regel GC-reich sind, ist die Tetranukleotidhäufigkeit nicht sehr hilfreich. Die Sequenzen AAACCCGGGTTT und CGACGATATGGTC sind zum Beispiel sehr unterschiedlich, haben aber die gleiche Basenhäufigkeit:
$ ./dna.py AAACCCGGGTTT 3 3 3 3 $ ./dna.py CGACGATATGTC 3 3 3 3
Allein schon die Tetranukleotidhäufigkeit lässt diese Sequenzen identisch erscheinen, aber es ist ganz offensichtlich, dass sie völlig unterschiedliche Proteinsequenzen produzieren und daher funktional unterschiedlich sind.Abbildung 6-1 zeigt ein Alignment der beiden Sequenzen, das zeigt, dass nur 3 der 12 Basen gemeinsam sind, was bedeutet, dass sie nur zu 25% ähnlich sind.
Get Python für die Bioinformatik beherrschen now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.