Capítulo 5. Cálculo del contenido de GC: Análisis sintáctico de FASTA y de secuencias
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En el Capítulo 1, contaste todas las bases de una cadena de ADN.En este ejercicio, tienes que contar las Gsy Csde una secuencia y dividirlas por la longitud de la secuencia para determinar el contenido de GC, tal y como se describe en la página Rosalind GC. El contenido de GC es informativo de varias maneras. Un nivel de contenido de GC más alto indica una temperatura de fusión relativamente más alta en biología molecular, y las secuencias de ADN que codifican proteínas tienden a encontrarse en regiones ricas en GC.
Hay muchas formas de resolver este problema, y todas empiezan utilizando Biopython para analizar un archivo FASTA, un formato de archivo clave en bioinformática. Te mostraré cómo utilizar el módulo Bio.SeqIO
para iterar sobre las secuencias del archivo e identificar la secuencia con mayor contenido de GC.
Aprenderás:
-
Cómo analizar el formato FASTA con
Bio.SeqIO
-
Cómo leer
STDIN
(pronunciado estándar en) -
Varias formas de expresar la noción de bucle
for
utilizando comprensiones de listas,filter()
ymap()
-
Cómo afrontar los retos del tiempo de ejecución, como la asignación de memoria al analizar archivos grandes
-
Más información sobre la función
sorted()
-
Cómo incluir instrucciones de formato en cadenas de formato
-
Cómo utilizar la función
sum()
para añadir una ...
Get Dominar Python para Bioinformática now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.