Kapitel 14. Offene Leserahmen finden
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Die ORF-Herausforderung ist das letzte Rosalind-Problem, das ich in diesem Buch angehe. Das Ziel ist es, alle möglichen offenen Leserahmen (ORFs) in einer DNA-Sequenz zu finden. Ein ORF ist eine Region von Nukleotiden zwischen dem Startcodon und dem Stoppcodon. Die Lösung berücksichtigt sowohl das Vorwärts- und Rückwärtskomplement als auch Frameshifts.
Es gibt zwar bereits Tools wie TransDecoder, um kodierende Regionen zu finden, aber um eine maßgeschneiderte Lösung zu schreiben, müssen viele Kenntnisse aus den vorangegangenen Kapiteln zusammenkommen, z. B. das Lesen einer FASTA-Datei, das Erstellen des umgekehrten Komplements einer Sequenz, die Verwendung von String-Slices, das Finden von K-Meren, die Verwendung mehrerer for
Schleifen/Iterationen, das Übersetzen von DNA und die Verwendung regulärer Ausdrücke.
Du wirst lernen:
-
Wie man eine Sequenz auf eine Länge abschneidet, die gleichmäßig durch die Codongröße teilbar ist
-
Wie du die Funktionen
str.find()
undstr.partition()
verwendest -
Wie man einen regulären Ausdruck mit Hilfe von Codeformatierung, Kommentaren und der impliziten String-Verkettung von Python dokumentiert
Erste Schritte
Der Code, die Tests und die Lösungen für diese Aufgabe befinden sich im Verzeichnis 14_orf.Kopiere zunächst die erste Lösung in das Programm orf.py
:
$ cd 14_orf/ $ cp ...
Get Python für die Bioinformatik beherrschen now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.