Capítulo 13. Enfoques fuera de memoria: Tabix y SQLite

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En este capítulo, examinaremos los enfoques fuera de memoria :estrategias informáticasbasadas en almacenar y trabajar con datos que se mantienen fuera de la memoria, en el disco. Leer datos de un disco es mucho, mucho más lento que trabajar con datos en memoria (véase "La todopoderosa tubería Unix: velocidad y belleza en uno"), pero en muchos casos éste es el enfoque que tenemos que adoptar cuando los enfoques en memoria (p. ej., cargar todo el conjunto de datos en R) o de flujo (p. ej., utilizar tuberías Unix, como hicimos en el Capítulo 7) no son apropiados. En concreto, veremos dos herramientas para trabajar con datos fuera de memoria: Tabix y las bases de datos SQLite.

Acceso rápido a archivos delimitados por tabulaciones indexados con BGZF y Tabix

BGZF y Tabix resuelven un problema realmente importante en genómica: a menudo necesitamos un acceso aleatorio rápido de sólo lectura a datos vinculados a una localización o rango genómico. Para la escala de datos que encontramos en genómica, recuperar este tipo de datos no es trivial por varias razones. En primer lugar, los datos pueden no caber por completo en la memoria, lo que requiere un enfoque en el que los datos se mantengan fuera de la memoria (en otras palabras, en un disco lento). En segundo lugar, incluso los potentes sistemas de bases de datos relacionales ...

Get Habilidades en Datos Bioinformáticos now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.