Kapitel 18. FASTX Sampler: Zufälliges Subsampling von Sequenzdateien

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Sequenzdatensätze in der Genomik und Metagenomik können entmutigend groß werden und erfordern viel Zeit und Rechenressourcen für die Analyse. Viele Sequenzer können Dutzende Millionen Reads pro Probe produzieren, und viele Experimente umfassen Dutzende bis Hunderte von Proben, jede mit mehreren technischen Replikaten, was zu Gigabytes bis Terabytes an Daten führt. Wenn du die Größe der Eingabedateien durch zufälliges Subsampling von Sequenzen reduzierst, kannst du die Daten schneller untersuchen. In diesem Kapitel zeige ich, wie du mit dem Pythonrandom Modul verwendet, um einen Teil der Reads aus FASTA/FASTQ-Sequenzdateien auszuwählen.

Du wirst etwas lernen über:

  • Nicht-deterministische Probenahme

Erste Schritte

Der Code und die Tests für diese Übung befinden sich im Verzeichnis 18_fastx_sampler.Kopiere zunächst die Lösung für ein Programm namens sampler.py:

$ cd 18_fastx_sampler/
$ cp solution.py sampler.py

Die FASTA-Eingabedateien zum Testen dieses Programms werden von dem Programm synth.py erzeugt, das du in Kapitel 17 geschrieben hast. Wenn du dieses Programm nicht fertig geschrieben hast, kopiere die Lösung in diese Datei, bevor du das Programm make fasta um drei FASTA-Dateien mit 1K, 10K und 100K Reads zu erstellen, die jeweils zwischen 75 und 200 bp lang sind, mit den ...

Get Python für die Bioinformatik beherrschen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.