Chapitre 15. Seqmagique : Créer et formater des rapports
Dans les projets de bio-informatique, tu te retrouves souvent face à un répertoire rempli de fichiers de séquences, probablement au format FASTA ou FASTQ. Tu voudras probablement commencer par te faire une idée de la distribution des séquences dans les fichiers, par exemple le nombre de séquences dans chaque fichier et les longueurs moyenne, minimale et maximale des séquences. Tu dois savoir si des fichiers sont corrompus - peut-être n'ont-ils pas été transférés complètement depuis ton centre de séquençage - ou si des échantillons ont beaucoup moins de lectures, ce qui indique peut-être un mauvais séquençage qui doit être refait. Dans ce chapitre, je présenterai quelques techniques pour vérifier tes fichiers de séquence à l'aide de hachages et de l'outil Seqmagick. Ensuite, j'écrirai un petit utilitaire pour imiter une partie de Seqmagick afin d'illustrer comment créer des tableaux de texte formatés. Ce programme sert de modèle à tout programme qui doit traiter tous les enregistrements d'un ensemble donné de fichiers et produire un tableau de statistiques récapitulatives.
Tu apprendras :
-
Comment installer l'outil
seqmagick -
Comment utiliser les hachages MD5
-
Comment utiliser
choicesdansargparsepour contraindre les arguments -
Comment utiliser le module
numpy -
Comment se moquer d'un ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access