Kapitel 19. Blastomatic: Parsen von Textdateien mit Trennzeichen
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Begrenzte Textdateien sind eine Standardmethode, um spaltenweise Daten zu kodieren. Du kennst wahrscheinlich Tabellenkalkulationen wie Microsoft Excel oder Google Sheets, bei denen jedes Arbeitsblatt einen Datensatz mit Spalten oben und Datensätzen unten enthält. Du kannst diese Daten in eine Textdatei exportieren, in der die Datenspalten durch ein Zeichen getrennt sind. Oft ist das Trennzeichen ein Komma und die Datei hat die Erweiterung .csv. Dieses Format wird CSV genannt, für comma-separated values.
Wenn das Trennzeichen ein Tabulator ist, kann die Erweiterung .tab, .txt oder .tsv für tabulatorgetrennte Werte lauten. Die erste Zeile der Datei enthält normalerweise die Namen der Spalten.
Dies gilt jedoch nicht für die tabellarische Ausgabe von BLAST (Basic Local Alignment Search Tool), einem der beliebtesten Tools in der Bioinformatik, das zum Vergleich von Sequenzen verwendet wird. In diesem Kapitel zeige ich dir, wie du diese Ausgabe analysieren und die BLAST-Ergebnisse mit Metadaten aus einer anderen begrenzten Textdatei mithilfe der Module csv
und pandas
zusammenführen kannst.
In dieser Übung wirst du lernen:
-
Wie man
csvkit
undcsvchk
verwendet, um begrenzte Textdateien anzuzeigen -
Wie man die Module
csv
undpandas
zum Parsen von Textdateien mit Trennzeichen verwendet
Get Python für die Bioinformatik beherrschen now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.