Capítulo 11. Trabajar con datos de alineación
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En el Capítulo 9, aprendimos sobre los formatos de rango, como BED y GTF, que suelen utilizarse para almacenar datos de rango genómico asociados a datos de anotación de características genómicas, como los modelos de genes. Otros tipos de formatos basados en rangos están diseñados para almacenar grandes cantidades de datos de alineación; por ejemplo, los resultados de alinear millones (o miles de millones) de lecturas de secuenciación de alto rendimiento con un genoma. En este capítulo, veremos el formato de alineación de datos de alto rendimiento más común: el formato de Alineación/Mapeo de Secuencias (SAM) para datos de mapeo (y su análogo binario, BAM). Los formatos SAM y BAM son los formatos estándar para almacenar lecturas de secuenciación mapeadas a una referencia.
Estudiamos SAM y BAM por dos razones. En primer lugar, una gran parte del trabajo bioinformático consiste en manipular archivos de alineación. Casi todos los experimentos de secuenciación de alto rendimiento implican un paso de alineación que produce datos de alineación en los formatos SAM/BAM. Dado que cada lectura de secuenciación tiene una entrada de alineación, los archivos de datos de alineación son masivos y requieren formatos de archivo binarios complejos que ocupen poco espacio. Además, los alineadores modernos producen una cantidad increíble ...
Get Habilidades en Datos Bioinformáticos now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.