Capítulo 19. Blastomatic: Análisis sintáctico de archivos de texto delimitados

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Los archivos de texto delimitados son una forma estándar de codificar datos en columnas. Probablemente estés familiarizado con hojas de cálculo como Microsoft Excel o Google Sheets, en las que cada hoja de cálculo puede contener un conjunto de datos con columnas en la parte superior y registros en la parte inferior. Puedes exportar estos datos a un archivo de texto en el que las columnas de datos estén delimitadas, o separadas por un carácter. Muy a menudo, el delimitador es una coma, y el archivo tendrá una extensión .csv. Este formato se denomina CSV, por valores separados por comas. Cuando el delimitador es una tabulación, la extensión puede ser .tab, .txt o .tsv para valores separados por tabulaciones. La primera línea del archivo suele contener los nombres de las columnas. En particular, éste no es el caso de la salida tabular de BLAST (Basic Local Alignment Search Tool), una de las herramientas más populares en bioinformática utilizada para comparar secuencias. En este capítulo, te mostraré cómo analizar esta salida y combinar los resultados de BLAST con los metadatos de otro archivo de texto delimitado utilizando los módulos csv y pandas.

En este ejercicio aprenderás

  • Cómo utilizar csvkit y csvchk para ver archivos de texto delimitados

  • Cómo utilizar los módulos csv y pandas ...

Get Dominar Python para Bioinformática now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.