Kapitel 16. FASTX grep: Ein Hilfsprogramm zur Auswahl von Sequenzen erstellen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Ein Kollege bat mich einmal, alle RNA-Sequenzen in einer FASTQ-Datei zu finden, deren Beschreibung oder Name die Zeichenfolge LSU (für Long Subunit RNA) enthält. Obwohl es möglich ist, dieses Problem für FASTQ-Dateien zu lösen, indem man das Programm grep 1 verwenden, um alle Zeilen einer Datei zu finden, die einem bestimmten Muster entsprechen. Wenn du aber eine Lösung in Python schreibst, kannst du ein Programm erstellen, das auch andere Formate wie FASTA verarbeiten und Datensätze nach anderen Kriterien wie Länge oder GC-Gehalt auswählen kann. Außerdem kannst du Optionen hinzufügen, um das Format der Ausgabesequenz zu ändern, und dem Benutzer Annehmlichkeiten wie das Erraten des Formats der Eingabedatei anhand der Dateierweiterung bieten.

In diesem Kapitel lernst du:

  • Über die Struktur einer FASTQ-Datei

  • Wie man einen regulären Ausdruck ohne Berücksichtigung der Groß- und Kleinschreibung findet

  • Über DWIM (Do What I Mean) und DRY (Don't Repeat Yourself) Ideen im Code

  • Wie man and und or Operationen verwendet, um boolesche Werte und Bits zu reduzieren

Mit grep Zeilen in einer Datei finden

Das Programm grep kann alle Zeilen in einer Datei finden, die einem bestimmten Muster entsprechen. Wenn ich in einer der FASTQ-Dateien nach LSU suche, findet es zwei Kopfzeilen, ...

Get Python für die Bioinformatik beherrschen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.