Kapitel 19. Blastomatic: Parsen von Textdateien mit Trennzeichen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Begrenzte Textdateien sind eine Standardmethode, um spaltenweise Daten zu kodieren. Du kennst wahrscheinlich Tabellenkalkulationen wie Microsoft Excel oder Google Sheets, bei denen jedes Arbeitsblatt einen Datensatz mit Spalten oben und Datensätzen unten enthält. Du kannst diese Daten in eine Textdatei exportieren, in der die Datenspalten durch ein Zeichen getrennt sind. Oft ist das Trennzeichen ein Komma und die Datei hat die Erweiterung .csv. Dieses Format wird CSV genannt, für comma-separated values. Wenn das Trennzeichen ein Tabulator ist, kann die Erweiterung .tab, .txt oder .tsv für tabulatorgetrennte Werte lauten. Die erste Zeile der Datei enthält normalerweise die Namen der Spalten. Dies gilt jedoch nicht für die tabellarische Ausgabe von BLAST (Basic Local Alignment Search Tool), einem der beliebtesten Tools in der Bioinformatik, das zum Vergleich von Sequenzen verwendet wird. In diesem Kapitel zeige ich dir, wie du diese Ausgabe analysieren und die BLAST-Ergebnisse mit Metadaten aus einer anderen begrenzten Textdatei mithilfe der Module csv und pandas zusammenführen kannst.

In dieser Übung wirst du lernen:

  • Wie man csvkit und csvchk verwendet, um begrenzte Textdateien anzuzeigen

  • Wie man die Module csv und pandas zum Parsen von Textdateien mit Trennzeichen verwendet

Get Python für die Bioinformatik beherrschen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.