Chapitre 19. Blastomatic : Analyse des fichiers texte délimités
Les fichiers texte délimités sont un moyen standard d'encoder des données en colonnes. Tu es probablement familier avec les feuilles de calcul comme Microsoft Excel ou Google Sheets, où chaque feuille de calcul peut contenir un ensemble de données avec des colonnes en haut et des enregistrements en bas. Tu peux exporter ces données vers un fichier texte où les colonnes de données sont délimitées, ou séparées par un caractère. Très souvent, le délimiteur est une virgule, et le fichier aura une extension .csv. Ce format est appelé CSV, pour comma-separated values (valeurs séparées par des virgules).
Lorsque le délimiteur est une tabulation, l'extension peut être .tab, .txt, ou .tsv pour les valeurs séparées par des tabulations. La première ligne du fichier contient généralement le nom des colonnes.
Ce n'est pas le cas de la sortie tabulaire de BLAST (Basic Local Alignment Search Tool), l'un des outils les plus populaires en bio-informatique utilisé pour comparer les séquences. Dans ce chapitre, je te montrerai comment analyser cette sortie et fusionner les résultats de BLAST avec les métadonnées d'un autre fichier texte délimité à l'aide des modules csv et pandas.
Dans cet exercice, tu apprendras :
-
Comment utiliser
csvkitetcsvchkpour visualiser des fichiers texte délimités ? -
Comment ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access