Prefacio

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Si la tecnología en nube es el futuro de la ciencia biomédica, para la genómica el futuro ya está aquí.

La genómica es la primera disciplina biomédica que se traslada en masa a la nube. Tal vez sea inevitable, dado que fue la primera en experimentar un crecimiento explosivo en la generación de datos, lo que provocó un rápido aumento de los requisitos de computación y almacenamiento, que una infraestructura en la nube está en una posición ideal para abordar. Los principales conjuntos de datos genómicos y sus recursos derivados ya están disponibles en la nube, y muchas herramientas como el Kit de Herramientas para el Análisis Genómico (GATK), líder del sector y producido por el Instituto Broad, se ofrecen ahora en formas optimizadas para ejecutarse eficientemente en una infraestructura en la nube. Como resultado, muchos investigadores que utilizan datos genómicos y herramientas de análisis relacionadas se enfrentan ahora o se enfrentarán pronto a la necesidad de aprender a utilizar los recursos de la nube, lo que puede representar un enorme reto para muchos. Mientras tanto, se está recurriendo a mucho personal informático y bioinformático de apoyo para ayudar a los investigadores a lograr esta transición, a veces con una formación mínima o nula relacionada con la ciencia de la genómica. En conjunto, estas dos poblaciones forman un continuo de personas que necesitan ponerse de acuerdo y trabajar juntas para resolver los retos a los que se enfrentan.

Finalidad, alcance y público objetivo de este libro

Con este libro, pretendemos ofrecer un recorrido de orientación práctica por las principales herramientas, mecanismos y procesos implicados en la realización de análisis genómicos en la nube, que pueda servir de punto intermedio para la mayoría de las personas de este espectro. Intentamos asumir el menor conocimiento previo posible, y proporcionamos dos capítulos de estilo manual, uno centrado en la genómica y otro en la tecnología, para garantizar que todo el mundo tenga una base firme en los conceptos fundamentales en los que nos basamos de ambos dominios. Además, hemos elegido deliberadamente una determinada pila tecnológica de código abierto -GATK, Lenguaje de Descripción de Flujos de Trabajo (WDL), Terra, Docker y Google Cloud Platform- que proporciona una funcionalidad integral y está respaldada por sólidos sistemas de apoyo al usuario, con el fin de garantizar una experiencia educativa satisfactoria.

Para que quede claro, este libro no pretende ser exhaustivo, ni en cuanto a las opciones de herramientas ni en cuanto al alcance científico de los análisis genómicos. Nuestra definición operativa de la genómica, centrada en el descubrimiento de variantes y los análisis inmediatamente relacionados, es intencionadamente limitada; y para cada paso de los procesos que describimos, a menudo existen varias, si no muchas, herramientas alternativas que podrías sustituir por las que hemos decidido mostrar. Sin embargo, hemos diseñado los temas y ejercicios que presentamos aquí para que proporcionen pautas y conclusiones que sean en gran medida transferibles y extensibles a otras herramientas y análisis, con el fin de maximizar su valor a largo plazo para los lectores. Además, tenemos previsto publicar una serie de entradas de blog complementarias y otros materiales en línea que mostrarán enfoques complementarios utilizando diferentes plataformas y tecnologías; consulta el repositorio GitHub del libro y su sitio web complementario.

Lo que aprenderás con este libro

La mera idea de hacer genómica en la nube puede parecer intimidante en una primera aproximación, especialmente si eres nuevo en uno u otro campo, pero no es tan complicado como podrías pensar. A lo largo de este libro, te guiaremos paso a paso por todas las piezas importantes del rompecabezas. Tendrás la oportunidad de ejecutar análisis genómicos con el GATK, seleccionados por su amplio atractivo e interesantes enfoques computacionales. Lo harás primero a través de los servicios "desnudos" proporcionados por la Plataforma en la Nube de Google (GCP) y luego en Terra, una plataforma escalable para la investigación biomédica desarrollada por el Instituto Broad y Verily, una empresa de Alphabet, sobre GCP.

Al final del libro, debes esperar haber aprendido o conseguido lo siguiente:

  • Fundamentos de la infraestructura y los procesos informáticos

  • Fundamentos de la genómica, incluidos los fundamentos biológicos, formatos y convenciones

  • Uso práctico de nivel principiante a intermedio de la pila tecnológica básica:

    • GATK, WDL, Terra, Docker y Google Cloud

    • Buenas prácticas de GATK para el descubrimiento de variantes, formuladas por el equipo de desarrollo de GATK en el Instituto Broad, que abarcan las variantes cortas de la línea germinal, las variantes cortas somáticas y las alteraciones somáticas del número de copias.

    • Lectura, autoría e interpretación de flujos de trabajo de análisis, primero en un entorno sandbox y luego a escala mediante varios modos de ejecución (desde un paquete autónomo de línea de comandos hasta un sistema totalmente gestionado).

    • Gestión de datos y ejecución de flujos de trabajo en un entorno de espacio de trabajo

    • Realizar análisis interactivos con Jupyter Notebooks

    • Unirlo todo: lograr la reproducibilidad computacional en las publicaciones mediante el uso del almacenamiento de datos en la nube, la generación de datos sintéticos, los flujos de trabajo portátiles y las herramientas en contenedores.

  • Objetivos secundarios

    • Mayor familiaridad con conceptos computacionales como el escalado y los enfoques de optimización

    • Experiencia práctica con varios paquetes bioinformáticos de línea de comandos, comandos comunes y formatos de archivo

¿Qué experiencia informática se necesita para los ejercicios?

Para los ejercicios del Capítulo 4 al Capítulo 10, asumimos que ya estás familiarizado con los fundamentos de la línea de comandos, incluidos los conceptos básicos de la navegación por directorios y la interacción con archivos de texto en un intérprete de comandos Bash; la composición y ejecución de comandos sencillos; y los conceptos de variables de entorno, ruta y directorio de trabajo. Para los capítulos 8, 11 y 13, asumimos que estás familiarizado con el concepto de escribir scripts, aunque no exigimos que tengas experiencia práctica en ello. Para el Capítulo 12 y el Capítulo 14, suponemos que has oído hablar de los lenguajes de programación R y Python, y te resultará más fácil comprender los ejemplos más complejos si estás familiarizado con su sintaxis, aunque no es obligatorio.

Si en algún momento de los ejercicios te sientes desorientado en cuanto a las herramientas computacionales y la terminología, te recomendamos que consultes las lecciones proporcionadas por la organización Software Carpentry, que están diseñadas específicamente para científicos investigadores que no han tenido una formación computacional formal. Las lecciones sobre el shell Unix pueden ser especialmente útiles si no tienes experiencia previa en la línea de comandos. También tienen conjuntos de lecciones sobre Python y sobre R, así como otros temas relevantes para el libro, como el control de versiones con Git. Todas estas lecciones son de código abierto y han sido desarrolladas por voluntarios de la comunidad que comprenden los retos cotidianos a los que se enfrentan los investigadores, por lo que son un recurso realmente fantástico.

Convenciones utilizadas en este libro

En este libro se utilizan las siguientes convenciones tipográficas:

Cursiva

Indica nuevos términos, URL, direcciones de correo electrónico, nombres de archivo, extensiones de archivo, nombres y componentes de tablas y flujos de trabajo.

Constant width

Se utiliza en los listados de programas, así como dentro de los párrafos para referirse a elementos del programa como nombres de variables o funciones, bases de datos, tipos de datos, variables de entorno, sentencias y palabras clave.

Constant width bold

Muestra el texto que el usuario debe escribir literalmente.

Constant width italic

Muestra el texto que debe sustituirse por valores proporcionados por el usuario o por valores determinados por el contexto.

$ antes del código

Indica un comando ejecutado en el intérprete de comandos de la VM

# antes del código

Indica un comando ejecutado en el contenedor docker

Nota

Este elemento significa una nota.

Utilizar ejemplos de código

El material complementario (ejemplos de código, ejercicios, figuras en color a tamaño completo, etc.) se puede descargar en GitHub.

Este libro está aquí para ayudarte a hacer tu trabajo. En general, si se ofrece código de ejemplo con este libro, puedes utilizarlo en tus programas y documentación. No es necesario que te pongas en contacto con nosotros para pedirnos permiso, a menos que estés reproduciendo una parte importante del código. Por ejemplo, escribir un programa que utilice varios trozos de código de este libro no requiere permiso. Vender o distribuir ejemplos de los libros de O'Reilly sí requiere permiso. Responder a una pregunta citando este libro y el código de ejemplo no requiere permiso. Incorporar una cantidad significativa de código de ejemplo de este libro en la documentación de tu producto sí requiere permiso.

Agradecemos la atribución, pero en general no la exigimos. Una atribución suele incluir el título, el autor, la editorial y el ISBN. Por ejemplo "Genómica en la Nube " de Geraldine A. Van der Auwera y Brian D. O'Connor (O'Reilly). Copyright 2020 The Broad Institute, Inc. y Brian O'Connor, 978-1-491-97519-0".

Si crees que el uso que haces de los ejemplos de código no se ajusta al uso legítimo o al permiso concedido anteriormente, no dudes en ponerte en contacto con nosotros en

Aprendizaje en línea O'Reilly

Nota

Durante más de 40 años, O'Reilly Media ha proporcionado formación tecnológica y empresarial, conocimientos y perspectivas para ayudar a las empresas a alcanzar el éxito.

Nuestra red única de expertos e innovadores comparten sus conocimientos y experiencia a través de libros, artículos y nuestra plataforma de aprendizaje online. La plataforma de aprendizaje en línea de O'Reilly te ofrece acceso bajo demanda a cursos de formación en directo, rutas de aprendizaje en profundidad, entornos de codificación interactivos y una amplia colección de textos y vídeos de O'Reilly y de más de 200 editoriales. Para más información, visita http://oreilly.com.

Cómo contactar con nosotros

Dirige tus comentarios y preguntas sobre este libro a la editorial:

  • O'Reilly Media, Inc.
  • 1005 Gravenstein Highway Norte
  • Sebastopol, CA 95472
  • 800-998-9938 (en Estados Unidos o Canadá)
  • 707-829-0515 (internacional o local)
  • 707-829-0104 (fax)

Tenemos una página web para este libro, donde se enumeran erratas, ejemplos y cualquier información adicional. Puedes acceder a esta página en https://oreil.ly/genomics-cloud.

Envía un correo electrónico para comentar o hacer preguntas técnicas sobre este libro.

Para saber más sobre nuestros libros, cursos y noticias, visita http://www.oreilly.com.

Encuéntranos en Facebook: http://facebook.com/oreilly

Síguenos en Twitter: http://twitter.com/oreillymedia

Míranos en YouTube: http://www.youtube.com/oreillymedia

Agradecimientos

Queremos dar las gracias a nuestros innumerables colegas del Instituto Broad y de la Universidad de California en Santa Cruz (UCSC), que han contribuido de muchas maneras a hacer realidad este libro.

Estamos enormemente en deuda con todos los miembros pasados y presentes de los equipos de apoyo y educación de primera línea de la Plataforma de Ciencias de los Datos del Instituto Broad, que desarrollaron y mantienen los materiales y recursos educativos originales en los que basamos muchos de los ejercicios prácticos presentados en este libro. Dentro del equipo educativo dirigido por Robert Majovski, nos gustaría destacar el trabajo de Soo Hee Lee, cuya minuciosidad y atención al detalle han producido algunos de los recursos más profundos disponibles sobre las herramientas GATK; Allie Hajian y Anton Kovalsky, encargados de la hercúlea hazaña de documentar cómo utilizar Terra incluso cuando se retuerce y evoluciona por debajo de ellos; y Kate Noblett, que escribió gran parte de la documentación original de WDL y ahora coordina los talleres de GATK, WDL y Terra con mano de hierro. Dentro del equipo de apoyo de primera línea dirigido por Tiffany Miller, nos gustaría destacar el trabajo de Beri Shifaw, que mantiene los pipelines gatk-workflows en GitHub y en Dockstore, así como los espacios de trabajo destacados en Terra; y Bhanu Gandham, que ha asumido con tanto entusiasmo la responsabilidad de obsesionarse por el bienestar de la comunidad de usuarios de GATK. Otros miembros colaboradores de estos dos equipos, pasados y presentes, son Derek Caetano-Anolles, Sushma Chaluvadi, Sheila Chandran, Elizabeth Kiernan, David Kling, Ron Levine y Adelaide Rhodes.

También reconocemos y apreciamos el creciente papel desempeñado por el amplio equipo de Ingeniería de Campo DSP dirigido por Alexander Baumann en este ámbito. Yvonne Blanco, estrella entre las estrellas, se incorporó desde el equipo de Experiencia del Usuario para mejorar los diagramas e ilustraciones clave con su impecable mojo de diseño.

Estamos eternamente agradecidos a los muchos miembros del equipo de desarrollo de GATK que han realizado aportaciones fundamentales a los recursos educativos y han prestado su experiencia en los talleres de GATK en todo el mundo. Son demasiados para enumerarlos aquí, pero dentro de ese equipo, nos gustaría destacar la inestimable ayuda de Eric Banks, Laura Gauthier, Yossi Farjoun y Lee Lichtenstein; la paciencia aparentemente interminable de David Benjamin y Sam Lee; el aplomo imperturbable de David Roazen y el fatalismo jovial de Louis Bergelson; la discreta pericia de Mark "Duplicados" Fleharty y la alegre pericia de Megan Shand. Un agradecimiento especial también a Chris Norman por su trabajo en la biblioteca Barclay, que impulsa el sistema de documentación GATK.

En un plano más personal, Geraldine quiere dar las gracias a Mauricio Carneiro y Mark De Pristo, antiguo miembro y fundador del equipo original de GATK, respectivamente, por arriesgarse y contratar a una microbióloga confundida hace tantos años.

Hablando de demasiados para contarlos, no podríamos empezar a nombrar a todos los que han participado en el desarrollo de los capítulos sobre la Biblioteca Digital Mundial, Cromwell y Terra, pero nos gustaría hacer una mención especial a Adrian "Notebooks Guy" Sharma, William Disman, Ruchi Munshi y Kyle Vernest, que han aportado ideas útiles y han soportado nuestro constante acoso sobre cuestiones que esperábamos ver resueltas antes de que saliera el libro. En este sentido, debemos dar las gracias a Chris Llanwarne y Adam Nichols por parchear womtool justo a tiempo para que el Capítulo 9 tenga mucho más sentido de lo que habría tenido de otro modo. Y hablando de acoso, nuestras más sinceras disculpas a Eric Karofsky y Jerôme Chadel, del equipo de Experiencia de Usuario, que tuvieron que soportar un aluvión constante de preguntas sobre qué elementos de la interfaz de Terra cambiarían a continuación y en qué plazo. Estamos profundamente agradecidos a Matthieu J. Miossec por colaborar con nosotros en el desarrollo del proyecto que presentamos en el Capítulo 14.

Dentro de la UCSC GI, queremos dar las gracias al equipo de la Plataforma de Genómica Computacional (CGP), cuyos miembros trabajan en diversos proyectos que aprovechan Terra y otros componentes del ecosistema de análisis basado en la nube que presentamos en este libro. Entre los colaboradores se encuentran Jesse Brennan, Amar Jandu, Natan Lao, Melaina Legaspi, Geryl Pelayo, Charles Reid, Hannes Schmidt y Daniel Sotirhos. Dentro del CGP, el equipo de Lighthouse Point -Michael Baumann (ahora en el Instituto Broad), Lon Blauvelt, Brian Hannafious y Ash O'Farrell, dirigidos por Beth Sheets- merece un reconocimiento especial por su papel en la redacción de excelentes tutoriales de investigación que ayudaron a inspirar secciones del libro.

También queremos dar las gracias a los equipos de Dockstore tanto de la UCSC como del Instituto de Ontario para la Investigación del Cáncer (OICR) por sus comentarios sobre este esfuerzo y su apoyo a la construcción de una plataforma para compartir flujos de trabajo que contribuya al ecosistema Terra. Charles Overbeck dirige el equipo técnico de la UCSC, y agradecemos las contribuciones de Louise Cabansay, Abraham Chávez, Andy Chen, Trevor Heathorn, Nneka Olunwa, Kevin Osborn, Natalie Pérez, Walter Shands, Emily Soth, Cricket Sloan y David Steinberg. Denis Yuen dirige el equipo técnico del OICR, con Lincoln Stein como IP y las contribuciones de Ryan Bautista, Kitty Cao, Andy Chen, Vincent Chung, Andrew Duncan, Victor Liu, Gary Luu, Shreya Radesh y Jennifer Wu.

Nada de esto habría sido posible sin el apoyo de nuestros respectivos equipos directivos. En el Instituto Broad, nos gustaría dar las gracias a Eric Lander, Lee McGuire y a los líderes de la Plataforma de Ciencias de los Datos, en particular a Anthony Philippakis, Eric Banks de nuevo y Danielle Ciofani, por mantener la fe en que este libro acabaría materializándose. En la UCSC, damos las gracias a la dirección del Instituto de Genómica (IG), incluidos Benedict Paten y el director del instituto, David Haussler, por su apoyo, junto con Greta Martin, cuyas dotes organizativas no tienen rival, y Nadine Gassner, que nos mantiene financiados para que podamos trabajar en proyectos geniales.

Estamos eternamente agradecidos a los revisores que se tomaron la molestia de leer los primeros borradores para ayudarnos a identificar lo que no funcionaba de forma fiable y a comprender lo que podía mejorarse. El libro que tienes ante ti es muy diferente de lo que les dimos originalmente para evaluar, para mejor. En esta categoría, saludamos a Titus Brown, Aaron Chevalier, Jeff Gentry, Sean Horgan, Lynn Langit, Lee Lichtenstein, Jessica Maia, David Mohs, Andrew Moschetti, Anubhav Shelat y Jonn Smith.

También estamos increíblemente agradecidos al equipo editorial de O'Reilly, que realizó la hazaña realmente mágica de convertir nuestro manuscrito -un conglomerado suelto de Google Docs- en un libro real. En particular, damos las gracias a nuestra editora de desarrollo, Michele Cronin, por guiarnos desde los primeros borradores hasta el producto final. Nos costó mucho engatusarla y algunos severos recordatorios sobre los plazos.

Por último, pero no por ello menos importante, nos gustaría dar las gracias a nuestros seres queridos por su paciencia y apoyo durante los más de dos años que nos llevó elaborar este libro. Geraldine espera que su encantadora esposa, Jessica, y sus hijas, Gabrielle y Melanie, queden convenientemente impresionadas y olviden de algún modo sus muchas trasnochadas, su comportamiento obsesivo y su incapacidad general para completar cualquier proyecto de mejora del hogar durante ese periodo de tiempo. Mientras tanto, Brian da las gracias a su compañero Dhawal por su infinita paciencia, comprensión y ánimo para terminar el libro, junto con su madre (Patty) y su padre (Jim) por proporcionarle el ocasional y apreciado empujón para "¡hacerlo!".

Get Genómica en la nube now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.