Capítulo 18. Muestreador FASTX: Submuestreo aleatorio de archivos de secuencia

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Los conjuntos de datos de secuencias en genómica y metagenómica pueden llegar a ser desalentadoramente grandes, lo que requiere mucho tiempo y recursos informáticos para analizarlos. Muchos secuenciadores pueden producir decenas de millones de lecturas por muestra, y muchos experimentos implican de decenas a cientos de muestras, cada una con múltiples réplicas técnicas que dan lugar a gigabytes o terabytes de datos. Reducir el tamaño de los archivos de entrada mediante el submuestreo aleatorio de secuencias te permite explorar los datos más rápidamente. En este capítulo, mostraré cómo utilizar el módulo de Pythonrandom de Python para seleccionar una parte de las lecturas de los archivos de secuencias FASTA/FASTQ.

Aprenderás sobre:

  • Muestreo no determinista

Cómo empezar

El código y las pruebas de este ejercicio están en el directorio 18_fastx_sampler.Empieza copiando la solución de un programa llamado sampler.py:

$ cd 18_fastx_sampler/
$ cp solution.py sampler.py

Los archivos de entrada FASTA para probar este programa serán generados por el programa synth.py que escribiste en el Capítulo 17. Si no terminaste de escribir ese programa, asegúrate de copiar la solución a ese nombre de archivo antes de ejecutar make fasta para crear tres archivos FASTA con lecturas de 1K, 10K y 100K, cada ...

Get Dominar Python para Bioinformática now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.