Capítulo 15. Seqmagique: Creación y formato de informes
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
A menudo, en los proyectos bioinformáticos, te encontrarás ante un directorio lleno de archivos de secuencias, probablemente en formato FASTA o FASTQ. Probablemente querrás empezar por hacerte una idea de la distribución de las secuencias en los archivos, por ejemplo, cuántas hay en cada archivo y la longitud media, mínima y máxima de las secuencias. Necesitas saber si algún archivo está dañado -tal vez no se transfirió completamente desde tu centro de secuenciación- o si alguna muestra tiene muchas menos lecturas, lo que tal vez indique una mala ejecución de la secuenciación que deba rehacerse. En este capítulo, presentaré algunas técnicas para comprobar tus archivos de secuencias utilizando hashes y la herramienta Seqmagick. A continuación, escribiré una pequeña utilidad que imita parte de Seqmagick para ilustrar cómo crear tablas de texto formateadas. Este programa sirve de plantilla para cualquier programa que necesite procesar todos los registros de un determinado conjunto de archivos y producir una tabla de estadísticas resumidas.
Aprenderás:
-
Cómo instalar la herramienta
seqmagick
-
Cómo utilizar los hashes MD5
-
Cómo utilizar
choices
enargparse
para restringir argumentos -
Cómo utilizar el módulo
numpy
-
Cómo simular un filehandle
-
Cómo utilizar los módulos
tabulate
yrich
para dar formato a las ...
Get Dominar Python para Bioinformática now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.