Kapitel 15. Seqmagique: Berichte erstellen und formatieren
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In Bioinformatik-Projekten starrst du oft auf ein Verzeichnis voller Sequenzdateien, wahrscheinlich im FASTA- oder FASTQ-Format. Du willst dir wahrscheinlich zunächst einen Überblick über die Verteilung der Sequenzen in den Dateien verschaffen, z. B. wie viele Sequenzen in jeder Datei enthalten sind und welche durchschnittliche, minimale und maximale Länge die Sequenzen haben. Du musst wissen, ob einige Dateien beschädigt sind - vielleicht wurden sie nicht vollständig von deinem Sequenzierzentrum übertragen - oder ob einige Proben viel weniger Reads haben, was vielleicht auf einen schlechten Sequenzierlauf hinweist, der wiederholt werden muss. In diesem Kapitel stelle ich dir einige Techniken vor, mit denen du deine Sequenzdateien mithilfe von Hashes und dem Tool Seqmagick überprüfen kannst. Dann schreibe ich ein kleines Dienstprogramm, das einen Teil von Seqmagick nachahmt, um zu zeigen, wie man formatierte Texttabellen erstellt. Dieses Programm dient als Vorlage für jedes Programm, das alle Datensätze in einer bestimmten Menge von Dateien verarbeiten und eine Tabelle mit zusammenfassenden Statistiken erstellen muss.
Du wirst lernen:
-
So installierst du das Tool
seqmagick
-
Wie man MD5-Hashes verwendet
-
Wie man
choices
inargparse
verwendet, um Argumente einzuschränken -
So verwendest ...
Get Python für die Bioinformatik beherrschen now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.