Prólogo
Pasé de las matemáticas al campo de la genómica en 1985, aproximadamente un año antes de que este campo existiera oficialmente. La palabra genómica se acuñó en 1986, año en el que también se produjo el primer debate público, en el Laboratorio Cold Spring Harbor, sobre la idea de montar un Proyecto Genoma Humano.
Es difícil imaginar cuánto ha cambiado desde entonces. Los ordenadores apenas figuraban en la biomedicina: el diseño inicial del Instituto Whitehead de Investigación Biomédica, fundado a principios de la década de 1980, no incluía ninguna disposición para un ordenador. Las grandes cantidades de datos se consideraban una molestia, no una ventaja: en un artículo de Nature que informaba sobre el debate del Proyecto Genoma Humano, el editor de biología de la revista escribió: "Si la habilidad y el ingenio de la biología moderna ya están al límite para interpretar secuencias de importancia conocida, como las de los genes DMD y CGD, ¿qué uso posible se podría hacer de más secuencias?".
A pesar de estas dudas, los biólogos decidieron seguir adelante y lanzaron el Proyecto Genoma Humano, su primer gran esfuerzo de recopilación de datos, en 1990. Una de las motivaciones importantes era la perspectiva de desplegar métodos sistemáticos -en lugar de conjeturas- para descubrir los genes responsables de las enfermedades humanas. En 1980, un brillante biólogo, David Botstein, había concebido cómo encontrar la ubicación de los genes de enfermedades monogénicas raras rastreando su herencia en las familias en relación con un mapa genético de variantes de ADN en el genoma humano. Sin embargo, para hacer realidad todo el poder de la idea sería necesario cartografiar -y finalmente secuenciar- todo el genoma humano.
El Proyecto Genoma Humano fue una colaboración extraordinaria que abarcó seis países y veinte instituciones, duró trece años y costó 3.000 millones de dólares. Cuando el polvo se asentó, el mundo tenía la secuencia de ADN de tres mil millones de nucleótidos de un único genoma humano.
Con este proyecto finalizado, muchos biólogos pensaron que el negocio volvería a la normalidad. Pero lo que ocurrió a continuación fue aún más extraordinario. Durante los 15 años siguientes, la biología se convirtió en una ciencia de la información, en la que la generación de cantidades masivas de datos reconfiguró el campo. Por ejemplo:
-
El mapeo genético en familias reveló los genes responsables de más de 5.000 trastornos monogénicos raros graves.
-
Los nuevos tipos de mapeo genético en poblaciones llevaron al descubrimiento de ~100.000 asociaciones sólidas de regiones genéticas específicas con enfermedades y rasgos comunes.
-
El análisis genético de miles de tumores descubrió cientos de nuevos genes en los que las mutaciones impulsaban el cáncer.
Sorprendentemente, el coste de secuenciar un genoma humano se redujo en un factor de cinco millones -de 3.000 millones a 600 dólares- y es probable que alcance los 100 dólares en los próximos años. Hasta ahora se han secuenciado más de un millón de genomas. En general, los datos genómicos de todo tipo se duplican aproximadamente cada ocho meses.
Nada de esto habría sido posible sin el desarrollo de nuevos y potentes métodos y herramientas computacionales para trabajar con los muchos nuevos tipos de datos que se estaban generando. Un buen ejemplo es el Conjunto de Herramientas para el Análisis del Genoma, desarrollado por colegas del Instituto Broad, sobre el que leerás mucho más en este libro.
Hoy en día, las ciencias de la vida se encuentran en medio de nuevas explosiones de datos. Muchos países están emprendiendo esfuerzos sistemáticos para recopilar datos genómicos y médicos en biobancos nacionales, lo que dará a los investigadores la capacidad de indagar aún más en la genética de enfermedades y rasgos tanto comunes como raros. Será especialmente importante garantizar que toda la diversidad genética del mundo esté representada en estos esfuerzos a gran escala, y no sólo las personas de ascendencia europea.
Gracias a los asombrosos avances tecnológicos de los últimos años, ahora podemos leer no sólo el plano del ADN, sino cómo se lee este plano como ARN en células individuales. Se han desarrollado métodos para leer la expresión génica a nivel unicelular, y un análisis inicial de 18 células pronto dio lugar a análisis de más de 18 millones de células. Este trabajo ha dado lugar a un proyecto internacional de Atlas Celular Humano, en el que participan más de 60 países de todo el mundo. Estos conjuntos de datos están empezando a hacer posible el uso de métodos computacionales, incluido el aprendizaje automático moderno, para inferir sistemáticamente el circuito subyacente de las células.
Sin embargo, a medida que crecen las aplicaciones biológicas, a menudo nos vemos frenados por limitaciones sistémicas en la forma de acceder a los datos y compartirlos. La mayoría de los datos biomédicos del mundo se han mantenido tradicionalmente en silos, accesibles sólo a través de servidores de los que cada investigador o grupo autorizado debe descargar sus propias copias a la infraestructura informática de su propia institución. Desde un punto de vista puramente técnico, esto es insostenible. En lugar de llevar los datos a los investigadores, necesitamos sistemas que permitan a los investigadores operar con los datos allí donde residen. También necesitamos modelos más transparentes para gestionar la custodia de los datos, así como formas eficaces de evaluar, hacer cumplir y auditar quién puede acceder a los datos y con qué fin. Deberíamos aspirar a cumplir estos cuatro principios: (1) la copia de datos no debe ser el modo predeterminado de compartir datos; (2) la seguridad y la auditoría deben ser integradas y de nivel empresarial; (3) el análisis a gran escala debe ser accesible a todos los grupos de investigación; y (4) los recursos informáticos deben ser elásticos, de modo que puedan ampliarse o reducirse según sea necesario.
La computación en nube ha surgido como la principal solución para el aspecto técnico de estos retos. En la práctica, sin embargo, crea nuevos obstáculos que requieren soluciones creativas.
En el Instituto Broad, empezamos a pasarnos a la nube hace cuatro años, para hacer frente a la creciente marea de datos genómicos. Nos pusimos manos a la obra convirtiendo nuestra operación de procesamiento de datos genómicos de un sistema tradicional in situ a otro que funciona en la nube desde el momento en que se generan los datos en nuestra plataforma de secuencias genómicas. Este cambio exigió replantearse todos los aspectos del proceso y crear sistemas totalmente nuevos desde cero para gestionar los terabytes de datos que salen a diario de las máquinas de secuenciación. Pero eso fue sólo el principio. Una vez que los datos estuvieron en la nube, nos topamos con el siguiente obstáculo: los servicios en la nube disponibles, en su estado actual, pueden resultar desalentadores de utilizar para los investigadores de ciencias de la vida sin formación avanzada. Así que nos asociamos con otros socios para desarrollar una plataforma de software y análisis, Terra.
También han surgido otras plataformas de este tipo a medida que el paso a la nube ha cobrado fuerza en la investigación biomédica. Actualmente estamos trabajando con muchos otros grupos para construir un ecosistema de datos federado de componentes interconectados que ofrezcan servicios y capacidades complementarios. Esperamos que estas plataformas ayuden a facilitar el tipo de colaboración abierta que se necesita para reunir datos, herramientas y conocimientos que abarquen múltiples dominios y disciplinas. También queremos reducir los umbrales técnicos para que los investigadores individuales participen en el ecosistema basado en la nube, especialmente aquellos que disponen de menos recursos informáticos.
A todas luces, la transición de la genómica a la nube está aún en sus primeras fases. En el Instituto Broad hemos aprendido muchas lecciones difíciles en nuestro propio viaje a la nube, y cada día aprendemos más. En una época de cambios tan perturbadores, es esencial que los grupos compartan sus experiencias entre sí.
Por eso estoy tan emocionada de que la incomparable Geraldine Van der Auwera, defensora desde hace mucho tiempo de la comunidad investigadora en el Instituto Broad, y Brian O'Connor, ardiente defensor de la interoperabilidad del software y los datos en la UCSC, hayan escrito este libro. El libro recoge la esencia de lo que hemos aprendido hasta ahora, y traza un camino accesible para que los recién llegados se unan al ecosistema de la nube genómica.
Get Genómica en la nube now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.