Kapitel 5. Berechnen des GC-Gehalts: Parsen von FASTA und Analysieren von Sequenzen
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In Kapitel 1 hast du alle Basen in einer DNA-Sequenz gezählt.In dieser Übung musst du die Gsund Csin einer Sequenz zählen und durch die Länge der Sequenz teilen, um den GC-Gehalt zu bestimmen wie auf der Rosalind GC-Seite beschrieben. Der GC-Gehalt ist in mehrfacher Hinsicht informativ. Ein höherer GC-Gehalt weist in der Molekularbiologie auf eine relativ höhere Schmelztemperatur hin, und DNA-Sequenzen, die für Proteine kodieren, befinden sich meist in GC-reichen Regionen.
Es gibt viele Möglichkeiten, dieses Problem zu lösen, und alle beginnen mit der Verwendung von Biopython zum Parsen einer FASTA-Datei, einem wichtigen Dateiformat in der Bioinformatik. Ich zeige dir, wie du mit dem Modul Bio.SeqIO
über die Sequenzen in der Datei iterieren kannst, um die Sequenz mit dem höchsten GC-Gehalt zu identifizieren.
Du wirst lernen:
-
Wie man das FASTA-Format mit
Bio.SeqIO
-
So liest man
STDIN
(ausgesprochen: Standard in) -
Es gibt mehrere Möglichkeiten, den Begriff der
for
Schleife mit Hilfe von List Comprehensions auszudrücken,filter()
, undmap()
-
Wie man Laufzeitprobleme wie die Speicherzuweisung beim Parsen großer Dateien bewältigt
-
Mehr über die Funktion
sorted()
-
Wie man Formatierungsanweisungen in Formatstrings einfügt
-
So fügst du mit der Funktion
sum()
eine ...
Get Python für die Bioinformatik beherrschen now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.