Chapitre 5. Calcul du contenu GC : Analyse FASTA et analyse des séquences
Au chapitre 1, tu as compté toutes les bases d'une chaîne d'ADN.Dans cet exercice, tu dois compter les Get les Cd'une séquence et les diviser par la longueur de la séquence pour déterminer le contenu en GC comme décrit sur la page Rosalind GC. Le contenu en GC est instructif à plusieurs égards. Un niveau élevé de contenu en GC indique une température de fusion relativement plus élevée en biologie moléculaire, et les séquences d'ADN qui codent pour des protéines ont tendance à se trouver dans des régions riches en GC.
Il existe de nombreuses façons de résoudre ce problème, et elles commencent toutes par l'utilisation de Biopython pour analyser un fichier FASTA, un format de fichier clé en bioinformatique. Je vais te montrer comment utiliser le module Bio.SeqIO pour itérer sur les séquences du fichier afin d'identifier la séquence ayant la teneur en GC la plus élevée.
Tu apprendras :
-
Comment analyser le format FASTA en utilisant
Bio.SeqIO -
Comment lire
STDIN(prononcé standard in) -
Il existe plusieurs façons d'exprimer la notion de boucle
forà l'aide de compréhensions de listes,filter()etmap() -
Comment relever les défis d'exécution tels que l'allocation de mémoire lors de l'analyse de fichiers volumineux.
-
En savoir plus sur la fonction
sorted() -
Comment inclure des ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access