Capítulo 1. Introducción Introducción

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Vivimos en una época de grandes oportunidades: los avances tecnológicos están haciendo posible generar datos increíblemente detallados y exhaustivos sobre todo, desde la secuencia de nuestros genomas completos hasta los patrones de expresión génica de células individuales. No sólo podemos generar este tipo de datos, sino muchos.

En los últimos 10 años, hemos asistido a un crecimiento asombroso de la cantidad de datos de secuenciación producidos en todo el mundo, posibilitado por una enorme reducción del coste de la secuenciación de lectura corta, una tecnología que exploramos en el Capítulo 2(Figura 1-1). Las tecnologías recientemente desarrolladas y de reciente aparición, como la secuenciación de lectura larga y la transcriptómica unicelular, prometen un futuro lleno de similares descensos transformadores de los costes y un mayor acceso que nunca a los diseños experimentales 'ómicos.

A) Projected growth of datasets; B) growth in data production at the Broad Institute.
Figura 1-1. Crecimiento registrado de los conjuntos de datos de secuenciación hasta 2015 y crecimiento previsto para la próxima década (arriba); crecimiento de la producción de datos en el Instituto Broad (abajo).1

Las promesas y los retos de los macrodatos en biología y ciencias de la vida

Cualquiera, desde laboratorios individuales hasta instituciones a gran escala, pronto podrá generar enormes cantidades de datos. En el momento de escribir estas líneas, los proyectos que se consideran grandes incluyen secuencias de genomas completos de cientos de miles de genomas. Durante la próxima década, podemos esperar ver proyectos de secuenciación de millones de genomas y transcriptomas, complementados (y complicados) por una amplia variedad de nuevos tipos de datos, como la imagen celular avanzada y la proteómica. La promesa es que las copiosas cantidades de datos y la variedad de nuevos tipos de datos permitirán a los investigadores acercarse a la respuesta de algunas de las preguntas más difíciles -aunque enojosamente sencillas de plantear- de la biología. Por ejemplo, ¿cuántos tipos de células existen en el cuerpo humano? ¿Qué variantes genéticas causan enfermedades? ¿Cómo surgen los cánceres y podemos predecirlos antes? Dado que la investigación es por naturaleza un deporte de equipo, querremos compartir ampliamente muchos de los datos que se vislumbran, querremos compartir nuestros algoritmos para analizar estos datos y querremos compartir los hallazgos con el resto del mundo.

Retos de las infraestructuras

La doble oportunidad de reducir costes y ampliar los diseños experimentales a disposición de los investigadores conlleva sus propios retos. No es fácil estar a la vanguardia, y cada nueva tecnología conlleva sus propias complicaciones. ¿Cómo se leen correctamente bases individuales mientras pasan a través de un nanoporo? ¿Cómo se obtienen imágenes de células vivas en 3D sin freírlas? ¿Cómo comparar los datos de expresión unicelular de un laboratorio con los de otro, corrigiendo al mismo tiempo las diferencias debidas a los efectos de lote? Éstos son sólo algunos ejemplos de una larguísima lista de retos técnicos a los que nos enfrentamos cuando desarrollamos u optimizamos un nuevo diseño experimental.

Pero la dificultad no termina con la generación de datos; en todo caso, eso es sólo el principio. Cuando se realizan los experimentos y se tienen los datos en la mano, hay que tener en cuenta todo un nuevo mundo de complejidad. De hecho, uno de los aspectos más difíciles de la investigación ómica es determinar cómo tratar los datos una vez generados. Cuando tu estudio de imagen produce un terabyte de datos por experimento, ¿dónde almacenas las imágenes para que sean accesibles? Cuando tu estudio de secuenciación del genoma completo produce una compleja mezcla de datos clínicos y fenotípicos junto con los datos de la secuencia, ¿cómo organizas estos datos para que sean localizables, tanto dentro de tu propio grupo como para la comunidad investigadora en general cuando los publiques? Cuando necesites actualizar tu metodología para utilizar la última versión del software de análisis en más de 100.000 muestras, ¿cómo ampliarás tu análisis? ¿Cómo puedes asegurarte de que tus técnicas analíticas funcionarán correctamente en distintos entornos, plataformas y organizaciones? ¿Y cómo puedes asegurarte de que tus métodos pueden ser reproducidos por científicos de la vida que tienen poca o ninguna formación formal en informática?

En este libro, te mostramos cómo utilizar la nube pública -servicios informáticosdisponibles bajo demanda a través de Internet- para abordar algunos de estos retos fundamentales de infraestructura. Pero antes, hablemos de por qué pensamos que la nube es una solución especialmente atractiva e identifiquemos algunas de las limitaciones que podrían aplicarse.

Esto no pretende ser un inventario exhaustivo de todas las opciones disponibles; al igual que el panorama de los diseños experimentales es muy variado, hay muchas formas de utilizar la nube en la investigación. En cambio, este libro se centra en el aprovechamiento de herramientas y métodos ampliamente utilizados que incluyen los flujos de trabajo genómicos de Buenas Prácticas proporcionados por el Kit de Herramientas de Análisis Genómico (GATK)(Figura 1-2), implementados mediante el Lenguaje de Descripción de Flujos de Trabajo (WDL), que pueden ejecutarse en cualquiera de los tipos de plataforma utilizados habitualmente en la informática de investigación. Te mostramos cómo utilizarlos en Google Cloud Platform (GCP), primero a través de los propios servicios de GCP, y después en la plataforma Terra operada sobre GCP por el Instituto Broad y Verily.

GATK provides a series of best-practice workflows to process sequence data for a variety of experimental designs.
Figura 1-2. GATK proporciona una serie de Buenas prácticas para procesar datos de secuencias para una variedad de diseños experimentales.

Si empiezas con esta pila integral, adquirirás habilidades fundamentales que te permitirán aprovechar las muchas otras opciones que existen en cuanto a lenguajes de flujo de trabajo, herramientas analíticas, plataformas y la nube.

Hacia un ecosistema basado en la nube para compartir y analizar datos

En la Figura 1-1, puedes ver que los datos ya han crecido más rápido de lo que la venerable ley de Moore puede mantener el ritmo, y como hemos comentado antes, los nuevos diseños experimentales que generan cantidades masivas de datos están apareciendo como setas en la noche. Este diluvio de datos es, en muchos sentidos, el motor principal que está motivando la migración de la informática científica a la nube. Sin embargo, es importante comprender que, en su forma actual, la nube pública es principalmente una colección de componentes de infraestructura de bajo nivel, y para la mayoría de los fines, es lo que construimos sobre estos componentes lo que realmente ayudará a los investigadores a gestionar su trabajo y responder a las preguntas científicas que están investigando. Todo esto forma parte de un cambio mayor que aprovecha los datos alojados en la nube, la informática y las implementaciones de algoritmos portátiles, junto con plataformas que facilitan el trabajo con ellas, normas para que las plataformas se comuniquen entre sí y un conjunto de principios conceptuales que hacen que la ciencia esté abierta a todos.

Datos y Computación Alojados en la Nube

El primer gran reto de esta incipiente era de big data en biología reside en cómo poner estos grandes conjuntos de datos a disposición de la comunidad investigadora. El enfoque tradicional, representado en la Figura 1-3, implica depósitos centralizados de los que los investigadores interesados deben descargar copias de los datos para analizarlos en las instalaciones informáticas locales de su institución. Sin embargo, este enfoque de "llevar los datos a la gente" ya es bastante despilfarrador (todo el mundo paga por almacenar copias de los mismos datos) y no puede escalar ante el crecimiento masivo (tanto en número de conjuntos de datos como en tamaño) que esperamos, que se mide en petabytes (PB; 1.000 terabytes).

En los próximos cinco años, por ejemplo, calculamos que los Institutos Nacionales de Salud (NIH) de EE.UU. y otras organizaciones albergarán más de 50 PB de datos genómicos que deberán ser accesibles a la comunidad investigadora. Sencillamente, habrá demasiados datos para que un solo investigador dedique tiempo a descargarlos y demasiados para que cada institución de investigación los aloje localmente para sus investigadores. Asimismo, los requisitos informáticos para analizar los diseños genómicos, de imágenes y otros diseños experimentales son realmente significativos. No todo el mundo tiene un clúster informático listo para funcionar con miles de CPU preparadas.

La solución que se ha hecho evidente en los últimos años es dar la vuelta al guión y "llevar a la gente a los datos". En lugar de depositar los datos en silos sólo de almacenamiento, los alojamos en repositorios de amplio acceso que están directamente conectados a los recursos informáticos; de este modo, cualquiera con acceso puede ejecutar análisis sobre los datos donde residen, sin transferir ninguno de ellos, como se muestra en la Figura 1-3. Aunque estos requisitos (amplio acceso y computación colocada con almacenamiento) podrían cumplirse mediante diversas soluciones tecnológicas, la más fácilmente disponible es una infraestructura de nube pública. Entraremos en los detalles de lo que esto implica en el Capítulo 3 como parte del manual de tecnología; por ahora, imagina simplemente que una nube es como la instalación de computación de alto rendimiento (HPC) de cualquier institución, salvo que suele ser mucho más grande, mucho más flexible en cuanto a opciones de configuración, y cualquiera puede alquilar tiempo en el equipo.

Las opciones más populares para la nube son Amazon Web Services (AWS), GCP y Microsoft Azure. Cada uno de ellos proporciona lo básico de computación y almacenamiento, pero también servicios más avanzados; por ejemplo, la API Pipelines en GCP, que utilizamos al ejecutar análisis a escala en el Capítulo 10.

Inverting the model for data sharing.
Figura 1-3. Invertir el modelo para compartir datos.

A diferencia de los clusters HPC tradicionales, para los que tiendes a guionizar tu análisis de un modo que depende en gran medida del entorno, el modelo presentado en la Figura 1-3 anima realmente a pensar en la portabilidad de los enfoques de análisis. Con múltiples nubes compitiendo por la cuota de mercado, cada una almacenando y proporcionando acceso a múltiples conjuntos de datos, los investigadores van a querer aplicar sus algoritmos a los datos dondequiera que residan. Por ello, en los últimos años se han popularizado los lenguajes de flujo de trabajo altamente portables que pueden ejecutarse en diferentes sistemas en diferentes nubes, como WDL (que utilizamos en este libro y exploramos más a fondo en el Capítulo 8), Common Workflow Language (CWL) y Nextflow.

Plataformas de Investigación en Ciencias de la Vida

El inconveniente del paso a la nube es que añade toda una nueva capa de complejidad (o posiblemente varias) al ya de por sí nada trivial mundo de la informática de investigación. Aunque es posible que algunos investigadores ya tengan suficiente formación o afinidad personal para averiguar cómo utilizar eficazmente los servicios en la nube en su trabajo, sin duda son la minoría. La mayoría mucho más amplia de la comunidad de investigación biomédica no suele estar equipada adecuadamente para tratar con los servicios "desnudos" que prestan los proveedores de nubes públicas, por lo que existe una necesidad clara y urgente de desarrollar plataformas e interfaces adaptadas a las necesidades de los investigadores que les restrinjan los detalles operativos y les permitan centrarse en la ciencia.

Varias plataformas populares presentan interfaces web fáciles de usar centradas en proporcionar a los investigadores un medio de apuntar y hacer clic para utilizar el almacenamiento y la computación en la nube. Por ejemplo, Terra (que exploramos en el Capítulo 11 y seguimos utilizando a lo largo del libro), Seven Bridges, DNAnexus y DNAstack proporcionan estas sofisticadas plataformas a los investigadores a través de la web.

Estas plataformas y otras similares pueden tener interfaces de usuario diferentes y centrarse en funciones distintas, pero en su esencia proporcionan un entorno de espacio de trabajo a los usuarios. Se trata de un lugar donde los investigadores pueden reunir sus datos, metadatos y flujos de trabajo analíticos, compartiéndolos con sus colaboradores a lo largo del proceso. La metáfora del espacio de trabajo permite a los investigadores ejecutar análisis -por ejemplo, en Terra podría ser un flujo de trabajo por lotes en WDL o Jupyter Notebook para un análisis interactivo- sin tener que sumergirse nunca en los detalles subyacentes de la nube. Veremos esto en acción en los Capítulos 11, 12 y 13. La conclusión es que estas plataformas permiten a los investigadores aprovechar la potencia y la escala de la nube sin tener que ocuparse de la complejidad subyacente.

Normalización y reutilización de infraestructuras

Parece que los investigadores disponen de varias nubes, que varios grupos han creado plataformas sobre estas nubes, y que todas ellas resuelven problemas similares de colocación de datos e informática en lugares de fácil acceso para los investigadores. La otra cara de la moneda es que necesitamos que estos distintos repositorios de datos y plataformas sean interoperables entre organizaciones. De hecho, una de las grandes esperanzas de trasladar los datos y los análisis a la nube es que se rompan los silos tradicionales que en el pasado han dificultado la colaboración y la aplicación de análisis en múltiples conjuntos de datos. Imagina poder reunir petabytes de datos en un único análisis transversal sin tener que preocuparte nunca de dónde residen los archivos, cómo transferirlos y cómo almacenarlos. He aquí una buena noticia: ¡ese sueño de un mecanismo para el análisis federado de datos ya es una realidad y sigue mejorando rápidamente!

La clave para esta visión de utilizar los datos independientemente de la plataforma y la nube son las normas. Organizaciones como la Alianza Global para la Genómica y la Salud (GA4GH) han sido pioneras en armonizar la forma en que las plataformas se comunican entre sí. Estas normas abarcan desde formatos de archivo como CRAM, BAM y VCF (que verás utilizados a lo largo de este libro), hasta interfaces de programación de aplicaciones (API) que conectan el almacenamiento, el cálculo, el descubrimiento y la identidad de usuario entre plataformas. Puede parecer aburrido o árido hablar de API y formatos de archivo, pero la realidad es que queremos que las plataformas en la nube admitan API comunes para permitir a los investigadores derribar las barreras entre plataformas en la nube y utilizar los datos independientemente de su ubicación.

La arquitectura del software, la visión compartida y la reutilización de componentes, además de las normas, son otros impulsores clave de la interoperabilidad. Durante los últimos años, cinco organizaciones estadounidenses dedicadas al desarrollo de infraestructuras en la nube con el apoyo de agencias de los NIH y programas de han colaborado para desarrollar componentes de infraestructuras interoperables bajo la visión compartida de una Biosfera de Datos. Los líderes tecnológicos de las cinco organizaciones asociadas -la Universidad de Vanderbilt en Nashville, TN; la Universidad de California en Santa Cruz (UCSC); la Universidad de Chicago; el Instituto Broad; y Verily, una empresa de Alphabet- articularon esta visión compartida de un ecosistema abierto en una entrada de blog en Medium, publicada en octubre de 2017. La Biosfera de los Datos hace hincapié en cuatro pilares clave: debe ser impulsada por la comunidad, basada en estándares, modular y de código abierto. Más allá del manifiesto, que te animamos a leer en su totalidad, los socios han integrado estos principios en los componentes y servicios que cada uno ha ido construyendo y explotando.

En conjunto, el desarrollo de normas basadas en la comunidad en GA4GH y la visión de la arquitectura del sistema y el intercambio de componentes de software en Data Biosphere nos han hecho avanzar colectivamente. El resultado de estos esfuerzos de colaboración es que hoy puedes conectarte a la plataforma Terra del Instituto Broad, importar rápidamente datos de múltiples repositorios alojados por la Universidad de Chicago, el Instituto Broad y otros en un espacio de trabajo privado en Terra, importar un flujo de trabajo del repositorio de métodos Dockstore y ejecutar tu análisis de forma segura en Google Cloud con unos pocos clics, como se ilustra en la Figura 1-4.

Data Biosphere principles in action: federated data analysis across multiple datasets in Terra using a workflow imported from Dockstore and executed in GCP.
Figura 1-4. Principios de la Biosfera de Datos en acción: análisis federado de datos a través de múltiples conjuntos de datos en Terra utilizando un flujo de trabajo importado de Dockstore y ejecutado en GCP.

Para ser claros, la visión completa de un ecosistema de Biosfera de Datos está lejos de hacerse realidad. Aún quedan importantes obstáculos por superar; algunos son, aburridamente, puramente técnicos, pero otros están arraigados en las prácticas e incentivos que mueven a individuos, comunidades y organizaciones. Por ejemplo, existe una necesidad pendiente de una mayor normalización en la forma en que las propiedades de los datos se describen formalmente en metadatos, lo que afecta a la capacidad de búsqueda entre conjuntos de datos, así como a la viabilidad del análisis federado de datos. Para ponerlo en términos concretos, es mucho más difícil aplicar un análisis conjunto a muestras procedentes de distintos conjuntos de datos si los archivos de datos equivalentes se identifican de forma diferente en los metadatos: empiezas a necesitar proporcionar una "traducción" de cómo coinciden las piezas de datos entre sí a través de los conjuntos de datos (input_bam en uno, bam en otro, aligned_reads en un tercero). Para solucionar esto, necesitamos que las comunidades de investigación pertinentes se reúnan para elaborar normas comunes. Luego se puede utilizar la tecnología para hacer cumplir las convenciones elegidas, pero alguien (o idealmente varios) tiene que dar un paso al frente y formularlas en primer lugar.

Como otro ejemplo de obstáculo impulsado por el ser humano y no por la tecnología, la investigación biomédica se beneficiaría claramente de disponer de mecanismos para ejecutar análisis federados sin problemas en distintas plataformas de infraestructura; por ejemplo, de nube a nube (Google Cloud y AWS), de nube a local (Google Cloud y el clúster HPC local de tu institución), y cualquier combinación multiplataforma que puedas imaginar sobre ese tema. Hay cierta complejidad técnica en ello, en particular en torno a la gestión de identidades y la autenticación segura, pero un obstáculo importante es que este concepto no siempre se alinea con el modelo de negocio de los vendedores de nubes comerciales y los proveedores de software. En términos más generales, muchas organizaciones tienen que participar en el desarrollo y funcionamiento de un ecosistema de este tipo, lo que conlleva un montón de complicaciones que van desde el ámbito legal (acuerdos de uso de datos, autoridad para operar y leyes de privacidad en varias naciones) hasta el técnico (interoperabilidad de la infraestructura, armonización de datos).

No obstante, en los últimos años se han realizado avances significativos, y cada vez estamos más cerca de la visión de la Biosfera de Datos. Muchos grupos y organizaciones están cooperando activamente en la construcción de componentes interoperables de infraestructura en la nube a pesar de estar en competencia directa por diversos programas de subvenciones, lo que sugiere que esta visión tiene un futuro vibrante. El objetivo compartido de construir plataformas que puedan intercambiar datos y calcular entre sí -permitiendo a los investigadores encontrar, mezclar y combinar datos entre sistemas y calcular en el entorno que elijan- se está haciendo realidad. Terra como plataforma está a la vanguardia de esta tendencia y es parte integrante para proporcionar acceso a una amplia gama de conjuntos de datos de investigación de proyectos del NCI, el Instituto Nacional de Investigación del Genoma Humano (NHGRI), el Instituto Nacional del Corazón, los Pulmones y la Sangre (NHLBI), el Atlas de Células Humanas y el Proyecto Baseline de Verily, por nombrar sólo algunos. Esto es posible porque estos proyectos están adoptando las API GA4GH y los principios arquitectónicos comunes de la Biosfera de Datos, haciéndolos compatibles con Terra y otras plataformas que adoptan estos estándares y filosofías de diseño.

Ser JUSTO

Hasta ahora, hemos cubierto mucho terreno en este capítulo, empezando por el fenomenal crecimiento de los datos en las ciencias de la vida y cómo eso está poniendo en tensión el antiguo modelo de descarga de datos y empujando a los investigadores hacia un modelo mejor que utiliza la nube para el almacenamiento y la computación. También echamos un vistazo a lo que está haciendo la comunidad para estandarizar la forma en que los datos y el cálculo se hacen accesibles en la nube, y cómo la filosofía de la Biosfera de Datos está dando forma a la forma en que las plataformas trabajan juntas para hacerse accesibles a los investigadores.

Las ventajas de este modelo son evidentes para los creadores de plataformas que no quieren reinventar la rueda y están motivados para reutilizar las API, los componentes y el diseño arquitectónico siempre que sea posible. Pero, desde la perspectiva de un investigador, ¿cómo se traducen estas normas de GA4GH y la arquitectura de Data Biosphere en mejoras para su investigación?

En conjunto, estas normas y principios arquitectónicos aplicados en plataformas como Terra permiten a los investigadores hacer que su investigación sea más JUSTA: localizable, accesible, interoperable y reutilizable.2 Profundizaremos en este tema en el Capítulo 14. Pero por ahora, es útil pensar que todo el trabajo descrito hasta ahora por los creadores de plataformas es un esfuerzo por hacer que sus sistemas, herramientas y datos sean más FAIR para los investigadores. Del mismo modo, al adoptar la nube, escribir flujos de trabajo portátiles en lenguajes como WDL, ejecutar análisis en Terra y compartir flujos de trabajo en Dockstore, los investigadores pueden hacer que su propio trabajo sea más FAIR. Esto permite a otros investigadores encontrar y acceder a técnicas analíticas, interoperar, ejecutar el análisis en distintos lugares y, en última instancia, reutilizar las herramientas como un peldaño hacia nuevos descubrimientos. A lo largo del libro, volvemos sobre los principios FAIR desde la perspectiva tanto de los constructores de plataformas como de los investigadores.

Recapitulación y próximos pasos

Ahora que te hemos puesto en antecedentes sobre algunas de las motivaciones centrales de por qué la genómica como disciplina se está trasladando a la nube, recapitulemos cómo este libro pretende ayudarte a iniciarte en este valiente nuevo mundo, tal y como se esboza en el Prefacio. Lo hemos diseñado como un viaje que te lleva a través de una progresión de temas técnicos, con el objetivo final de abordar los retos de infraestructura antes mencionados, mostrándote en última instancia cómo hacer tu trabajo en la nube y, además, hacerlo JUSTO.

Recuerda que hay muchas formas distintas de abordar estos retos, utilizando soluciones diferentes, y que nos estamos centrando sólo en un enfoque concreto. Aun así, esperamos que los capítulos siguientes te proporcionen unas bases sólidas sobre las que construir tu propio trabajo:

Capítulo 2 y Capítulo 3
Exploramos los fundamentos de la biología y la computación en nube.
Capítulo 5 a Capítulo 7
Nos sumergimos en el conjunto de herramientas GATK y en las actuales canalizaciones de buenas prácticas para el descubrimiento de variantes somáticas y de la línea germinal.
Capítulo 8 y Capítulo 9
Describimos cómo automatizar tu análisis y hacerlo portátil con flujos de trabajo escritos en WDL.
Capítulo 10 y Capítulo 11
Empezamos a escalar el análisis primero en Google Cloud y luego en Terra.
Capítulo 12
Complementamos el análisis basado en el flujo de trabajo con el análisis interactivo mediante Jupyter en Terra.
Capítulo 13 y Capítulo 14
Te enseñamos a crear tus propios espacios de trabajo en Terra y reunimos todo lo que has aprendido, para mostrarte cómo hacer un trabajo totalmente JUSTO.

Al final del libro, queremos que conozcas bien las buenas prácticas actuales para el análisis de datos genómicos, que te sientas cómodo utilizando WDL para expresar tus procesos analíticos, que seas capaz de utilizar Terra tanto para análisis basados en flujos de trabajo como para análisis interactivos a escala, y que compartas tu trabajo con tus colaboradores.

¡Empecemos!

1 Stephens ZD, et al. "Big Data: ¿Astronómicos o genómicos?" PLoS Biol 13(7): e1002195 (2015). https://doi.org/10.1371/journal.pbio.1002195.

2 Los Principios Rectores FAIR para la gestión y administración de datos científicos de Mark D. Wilkinson et al. es la publicación original de este conjunto de principios.

Get Genómica en la nube now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.