Vorwort

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Wenn die Cloud-Technologie die Zukunft der biomedizinischen Wissenschaft ist, dann ist die Zukunft für die Genomik bereits da.

Die Genomik ist die erste biomedizinische Disziplin, die massenhaft in die Cloud umzieht. Das ist vielleicht unvermeidlich, denn sie war die erste Disziplin, die ein explosionsartiges Wachstum der Datenerzeugung erlebte, was zu einem schnell wachsenden Bedarf an Rechenleistung und Speicherung führte, für den eine Cloud-Infrastruktur ideal geeignet ist. Große genomische Datensätze und die daraus abgeleiteten Ressourcen sind jetzt in der Cloud verfügbar, und viele Tools wie das branchenführende Genome Analysis Toolkit (GATK) des Broad Institute werden jetzt in Formen angeboten, die für den effizienten Betrieb in einer Cloud-Infrastruktur optimiert sind. Das hat zur Folge, dass viele Forscher/innen, die Genomdaten und die dazugehörigen Analysetools nutzen, jetzt oder bald mit der Notwendigkeit konfrontiert werden, die Nutzung von Cloud-Ressourcen zu erlernen, was für viele eine große Herausforderung darstellen kann. Gleichzeitig werden viele Informatiker/innen und Bioinformatiker/innen hinzugezogen, um den Forscher/innen bei dieser Umstellung zu helfen, manchmal mit nur minimaler oder gar keiner Ausbildung im Bereich der Genomik. Zusammengenommen bilden diese beiden Gruppen ein Kontinuum von Menschen, die zusammenarbeiten müssen, um die Herausforderungen zu meistern, mit denen sie konfrontiert sind.

Zweck, Umfang und Zielpublikum dieses Buches

Mit diesem Buch wollen wir eine praktische Orientierungstour durch die wichtigsten Werkzeuge, Mechanismen und Prozesse bieten, die bei der Durchführung von Genomanalysen in der Cloud zum Einsatz kommen, die den meisten Menschen in diesem Spektrum als Mittelweg dienen kann. Wir versuchen, so wenig Vorkenntnisse wie möglich vorauszusetzen, und bieten zwei Kapitel im Stil einer Fibel an, von denen sich das eine auf die Genomik und das andere auf die Technologie konzentriert, um sicherzustellen, dass jeder eine solide Grundlage für die grundlegenden Konzepte hat, auf die wir uns in beiden Bereichen stützen. Außerdem haben wir uns bewusst für einen bestimmten Open-Source-Technologiestack entschieden - GATK, Workflow Description Language (WDL), Terra, Docker und Google Cloud Platform -, der eine durchgängige Funktionalität bietet und von einem robusten Benutzersupport unterstützt wird, um einen erfolgreichen Lernprozess zu garantieren.

Dieses Buch erhebt nicht den Anspruch, umfassend zu sein, weder in Bezug auf die Werkzeugoptionen noch auf den wissenschaftlichen Umfang genomischer Analysen. Unsere Definition von Genomik, die sich auf die Entdeckung von Varianten und die unmittelbar damit verbundenen Analysen konzentriert, ist absichtlich eng gefasst, und für jeden Schritt der von uns beschriebenen Prozesse gibt es oft mehrere, wenn nicht sogar viele alternative Werkzeuge, die du anstelle der von uns vorgestellten einsetzen könntest. Wir haben die hier vorgestellten Themen und Übungen jedoch so konzipiert, dass sie weitgehend auf andere Tools und Analysen übertragbar und erweiterbar sind, um ihren langfristigen Nutzen für die Leser zu maximieren. Darüber hinaus planen wir eine Reihe von begleitenden Blogbeiträgen und anderen Online-Materialien, die ergänzende Ansätze mit verschiedenen Plattformen und Technologien zeigen; siehe das GitHub-Repository des Buches und die dazugehörige Website.

Was du in diesem Buch lernen wirst

Der Gedanke, Genomik in der Cloud zu betreiben, mag auf den ersten Blick einschüchternd wirken, vor allem, wenn du dich mit einem oder beiden Themen nicht auskennst, aber es ist nicht so kompliziert, wie du vielleicht denkst. In diesem Buch führen wir dich Schritt für Schritt durch alle wichtigen Teile des Puzzles. Du wirst die Möglichkeit haben, Genomanalysen mit der GATK durchzuführen, die aufgrund ihrer breiten Anziehungskraft und interessanten Berechnungsansätze ausgewählt wurden. Dazu nutzt du zunächst die "nackten" Dienste der Google Cloud Platform (GCP) und anschließend Terra, eine skalierbare Plattform für die biomedizinische Forschung, die vom Broad Institute und Verily, einem Unternehmen von Alphabet, auf der GCP entwickelt wurde.

Am Ende des Buches solltest du Folgendes gelernt oder erreicht haben:

  • Grundlagen der Recheninfrastruktur und -prozesse

  • Grundlagen der Genomik einschließlich biologischer Grundlagen, Formate und Konventionen

  • Praktische Anwendung des Kerntechnologie-Stacks auf Anfänger- bis mittlerem Niveau:

    • GATK, WDL, Terra, Docker und Google Cloud

    • GATK Bewährte Methoden für die Variantenentdeckung, wie sie vom GATK-Entwicklungsteam am Broad Institute formuliert wurden und die Keimbahn-Kurzvarianten, somatische Kurzvarianten und somatische Kopienzahlveränderungen umfassen

    • Lesen, Verfassen und Interpretieren von Analyse-Workflows, zunächst in einer Sandbox-Umgebung und dann in verschiedenen Ausführungsmodi (von einem eigenständigen Befehlszeilenpaket bis hin zu einem vollständig verwalteten System)

    • Verwalten von Daten und Workflow-Ausführung in einer Arbeitsumgebung

    • Interaktive Analysen mit Jupyter Notebooks durchführen

    • Alles miteinander verbinden: Reproduzierbarkeit von Publikationen durch Cloud-Speicherung, synthetische Datengenerierung, mobile Arbeitsabläufe und containerisierte Tools

  • Sekundäre Ziele

    • Erhöhte Vertrautheit mit Berechnungskonzepten wie Skalierung und Optimierungsansätzen

    • Praktische Erfahrung mit verschiedenen Bioinformatik-Kommandozeilenpaketen, gängigen Befehlen und Dateiformaten

Welche Computerkenntnisse sind für die Übungen erforderlich?

Für die Übungen in den Kapiteln 4 bis 10 gehen wir davon aus, dass du bereits mit den Grundlagen der Kommandozeile vertraut bist. Dazu gehören die Grundlagen der Navigation in Verzeichnissen und der Interaktion mit Textdateien in einer Bash-Shell, das Verfassen und Ausführen einfacher Befehle sowie die Konzepte von Umgebungsvariablen, Pfad und Arbeitsverzeichnis. In den Kapiteln 8 bis 11 und 13 gehen wir davon aus, dass du mit dem Konzept des Schreibens von Skripten vertraut bist, auch wenn du keine praktische Erfahrung darin haben musst. In den Kapiteln 12 und 14 gehen wir davon aus, dass du die Programmiersprachen R und Python kennst. Es wird dir leichter fallen, die komplexeren Beispiele zu verstehen, wenn du mit ihrer Syntax vertraut bist.

Wenn du dich während der Übungen mit den Rechenwerkzeugen und der Terminologie überfordert fühlst, empfehlen wir dir die Lektionen der Software Carpentry-Organisation, die speziell für Forscher ohne formale Rechenausbildung entwickelt wurden. Die Lektionen über die Unix-Shell können besonders hilfreich sein, wenn du noch keine Erfahrung mit der Kommandozeile hast. Es gibt auch Lektionen zu Python und R sowie zu anderen für das Buch relevanten Themen wie Versionskontrolle mit Git. Diese Lektionen sind alle quelloffen und wurden von Freiwilligen in der Community entwickelt, die die alltäglichen Herausforderungen von Forschern und Forscherinnen kennen - sie sind also eine wirklich fantastische Ressource.

In diesem Buch verwendete Konventionen

In diesem Buch werden die folgenden typografischen Konventionen verwendet:

Kursiv

Weist auf neue Begriffe, URLs, E-Mail-Adressen, Dateinamen, Dateierweiterungen, Tabellennamen und -komponenten sowie Workflows hin.

Constant width

Wird für Programmlistings sowie innerhalb von Absätzen verwendet, um auf Programmelemente wie Variablen- oder Funktionsnamen, Datenbanken, Datentypen, Umgebungsvariablen, Anweisungen und Schlüsselwörter hinzuweisen.

Constant width bold

Zeigt Text an, der vom Benutzer wortwörtlich getippt werden sollte.

Constant width italic

Zeigt Text an, der durch vom Benutzer eingegebene Werte oder durch kontextabhängige Werte ersetzt werden soll.

$ vor dem Code

Zeigt einen in der VM-Shell ausgeführten Befehl an

# vor dem Code

Zeigt einen Befehl an, der im Docker-Container ausgeführt wurde

Hinweis

Dieses Element steht für eine Note.

Code-Beispiele verwenden

Zusätzliches Material (Code-Beispiele, Übungen, Farbabbildungen in Originalgröße usw.) steht auf GitHub zum Download bereit.

Dieses Buch soll dir helfen, deine Arbeit zu erledigen. Wenn in diesem Buch Beispielcode angeboten wird, darfst du ihn in deinen Programmen und deiner Dokumentation verwenden. Du musst uns nicht um Erlaubnis fragen, es sei denn, du reproduzierst einen großen Teil des Codes. Wenn du zum Beispiel ein Programm schreibst, das mehrere Teile des Codes aus diesem Buch verwendet, brauchst du keine Erlaubnis. Der Verkauf oder die Verbreitung von Beispielen aus O'Reilly-Büchern erfordert jedoch eine Genehmigung. Die Beantwortung einer Frage mit einem Zitat aus diesem Buch und einem Beispielcode erfordert keine Genehmigung. Wenn du einen großen Teil des Beispielcodes aus diesem Buch in die Dokumentation deines Produkts aufnimmst, ist eine Genehmigung erforderlich.

Wir freuen uns über eine Namensnennung, verlangen sie aber in der Regel nicht. Eine Quellenangabe umfasst normalerweise den Titel, den Autor, den Verlag und die ISBN. Ein Beispiel: "Genomics in the Cloud " von Geraldine A. Van der Auwera und Brian D. O'Connor (O'Reilly). Copyright 2020 The Broad Institute, Inc. und Brian O'Connor, 978-1-491-97519-0."

Wenn du der Meinung bist, dass die Verwendung von Code-Beispielen nicht unter die Fair-Use-Regelung oder die oben genannte Erlaubnis fällt, kannst du uns gerne unter kontaktieren

O'Reilly Online Learning

Hinweis

Seit mehr als 40 Jahren bietet O'Reilly Media Schulungen, Wissen und Einblicke in Technologie und Wirtschaft, um Unternehmen zum Erfolg zu verhelfen.

Unser einzigartiges Netzwerk von Experten und Innovatoren teilt sein Wissen und seine Erfahrung durch Bücher, Artikel und unsere Online-Lernplattform. Die Online-Lernplattform von O'Reilly bietet dir On-Demand-Zugang zu Live-Trainingskursen, ausführlichen Lernpfaden, interaktiven Programmierumgebungen und einer umfangreichen Text- und Videosammlung von O'Reilly und über 200 anderen Verlagen. Weitere Informationen erhältst du unter http://oreilly.com.

Wie du uns kontaktierst

Bitte richte Kommentare und Fragen zu diesem Buch an den Verlag:

  • O'Reilly Media, Inc.
  • 1005 Gravenstein Highway Nord
  • Sebastopol, CA 95472
  • 800-998-9938 (in den Vereinigten Staaten oder Kanada)
  • 707-829-0515 (international oder lokal)
  • 707-829-0104 (Fax)

Wir haben eine Webseite für dieses Buch, auf der wir Errata, Beispiele und zusätzliche Informationen auflisten. Du kannst diese Seite unter https://oreil.ly/genomics-cloud aufrufen .

Schreib eine E-Mail an , um Kommentare oder technische Fragen zu diesem Buch zu stellen.

Um mehr über unsere Bücher, Kurse und Neuigkeiten zu erfahren, besuche http://www.oreilly.com.

Finde uns auf Facebook: http://facebook.com/oreilly

Folge uns auf Twitter: http://twitter.com/oreillymedia

Schau uns auf YouTube: http://www.youtube.com/oreillymedia

Danksagungen

Wir möchten unseren zahllosen Kolleginnen und Kollegen am Broad Institute und an der University of California, Santa Cruz (UCSC) danken, die auf so vielfältige Weise dazu beigetragen haben, dass dieses Buch zustande kam.

Wir sind allen ehemaligen und aktuellen Mitgliedern der Support- und Ausbildungsteams der Data Sciences Platform am Broad Institute zu großem Dank verpflichtet, die die ursprünglichen Ausbildungsmaterialien und Ressourcen entwickelt und gepflegt haben, auf denen viele der in diesem Buch vorgestellten praktischen Übungen basieren. Innerhalb des von Robert Majovski geleiteten Ausbildungsteams möchten wir die Arbeit von Soo Hee Lee hervorheben, die mit ihrer Gründlichkeit und Detailgenauigkeit einige der umfangreichsten Ressourcen zu den GATK-Tools erstellt hat; Allie Hajian und Anton Kovalsky, die die Herkulesaufgabe haben, die Verwendung von Terra zu dokumentieren, während es sich unter ihnen windet und weiterentwickelt; und Kate Noblett, die einen Großteil der ursprünglichen WDL-Dokumentation verfasst hat und jetzt mit eiserner Hand die Workshops zu GATK, WDL und Terra koordiniert. Innerhalb des von Tiffany Miller geleiteten Support-Teams möchten wir die Arbeit von Beri Shifaw hervorheben, die die GATK-Workflow-Pipelines auf GitHub und in Dockstore sowie die Arbeitsbereiche in Terra pflegt, und von Bhanu Gandham, der sich mit Begeisterung um das Wohlergehen der GATK-Nutzergemeinschaft kümmert. Zu den weiteren ehemaligen und aktuellen Mitgliedern dieser beiden Teams gehören Derek Caetano-Anolles, Sushma Chaluvadi, Sheila Chandran, Elizabeth Kiernan, David Kling, Ron Levine und Adelaide Rhodes.

Wir wissen auch die wachsende Rolle des Broad DSP Field Engineering Teams unter der Leitung von Alexander Baumann in diesem Bereich zu schätzen. Der Star unter den Stars ist Yvonne Blanco aus dem User Experience Team, die mit ihrem tadellosen Design wichtige Diagramme und Illustrationen verbessert hat.

Wir sind den vielen Mitgliedern des GATK-Entwicklungsteams unendlich dankbar, die wichtige Beiträge zu den Bildungsressourcen geleistet und ihr Fachwissen in GATK-Workshops auf der ganzen Welt zur Verfügung gestellt haben. Es gibt zu viele von ihnen, um sie hier aufzuzählen, aber innerhalb dieses Teams möchten wir die unschätzbare Unterstützung von Eric Banks, Laura Gauthier, Yossi Farjoun und Lee Lichtenstein hervorheben; die scheinbar endlose Geduld von David Benjamin und Sam Lee; die unerschütterliche Gelassenheit von David Roazen und den jovialen Fatalismus von Louis Bergelson; die stille Expertise von Mark "Duplicates" Fleharty und die fröhliche Expertise von Megan Shand. Ein besonderes Lob geht auch an Chris Norman für seine Arbeit an der Barclay-Bibliothek, die das GATK-Dokumentationssystem unterstützt.

Auf einer persönlicheren Ebene möchte Geraldine Mauricio Carneiro und Mark De Pristo, einem ehemaligen Mitglied bzw. Gründer des ursprünglichen GATK-Teams, dafür danken, dass sie vor all den Jahren eine Chance ergriffen und einen verwirrten Mikrobiologen eingestellt haben.

Apropos zu viele: Wir können gar nicht alle aufzählen, die an der Entwicklung der Kapitel über WDL, Cromwell und Terra beteiligt waren, aber wir möchten Adrian "Notebooks Guy" Sharma, William Disman, Ruchi Munshi und Kyle Vernest besonders erwähnen, die alle hilfreiche Erkenntnisse beigesteuert haben und unsere ständigen Nachfragen zu Problemen ertragen haben, die wir noch vor Erscheinen des Buches gelöst sehen wollten. In diesem Zusammenhang schulden wir Chris Llanwarne und Adam Nichols ein großes Dankeschön dafür, dass sie womtool gerade noch rechtzeitig gepatcht haben, damit Kapitel 9 viel mehr Sinn ergibt, als es sonst der Fall gewesen wäre. Apropos nerven: Wir möchten uns bei Eric Karofsky und Jerôme Chadel vom User Experience Team entschuldigen, die ständig Fragen dazu beantworten mussten, welche Elemente der Terra-Benutzeroberfläche sich als Nächstes ändern würden und in welchem Zeitrahmen. Wir sind Matthieu J. Miossec sehr dankbar für die Zusammenarbeit bei der Entwicklung des Projekts, das wir in Kapitel 14 vorstellen.

Innerhalb der UCSC GI möchten wir dem Team der Computational Genomics Platform (CGP) danken, dessen Mitglieder an einer Vielzahl von Projekten arbeiten, die Terra und andere Cloud-basierte Analyse-Ökosystemkomponenten nutzen, die wir in diesem Buch vorstellen. Zu den Mitarbeitern gehören Jesse Brennan, Amar Jandu, Natan Lao, Melaina Legaspi, Geryl Pelayo, Charles Reid, Hannes Schmidt und Daniel Sotirhos. Innerhalb des CGP verdient das Lighthouse Point Team - Michael Baumann (jetzt am Broad Institute), Lon Blauvelt, Brian Hannafious und Ash O'Farrell unter der Leitung von Beth Sheets - besondere Anerkennung für ihre Rolle bei der Erstellung exzellenter Forschungsanleitungen, die Teile des Buches inspiriert haben.

Wir möchten uns auch bei den Dockstore-Teams der UCSC und des Ontario Institute for Cancer Research (OICR) für ihr Feedback zu diesem Projekt und ihre Unterstützung beim Aufbau einer Plattform für den Austausch von Arbeitsabläufen bedanken, die zum Terra-Ökosystem beiträgt. Charles Overbeck leitet das technische Team an der UCSC, und wir sind dankbar für die Beiträge von Louise Cabansay, Abraham Chavez, Andy Chen, Trevor Heathorn, Nneka Olunwa, Kevin Osborn, Natalie Perez, Walter Shands, Emily Soth, Cricket Sloan und David Steinberg. Denis Yuen leitet das technische Team am OICR mit Lincoln Stein als PI und Beiträgen von Ryan Bautista, Kitty Cao, Andy Chen, Vincent Chung, Andrew Duncan, Victor Liu, Gary Luu, Shreya Radesh und Jennifer Wu.

Ohne die Unterstützung unserer jeweiligen Führungsteams wäre dies alles nicht möglich gewesen. Am Broad Institute möchten wir Eric Lander, Lee McGuire und den Leitern der Data Sciences Platform, insbesondere Anthony Philippakis, Eric Banks und Danielle Ciofani, dafür danken, dass sie den Glauben daran bewahrt haben, dass dieses Buch zustande kommen würde. An der UCSC danken wir der Leitung des Genomics Institute (GI), darunter Benedict Paten und dem Institutsdirektor David Haussler, für ihre Unterstützung, ebenso wie Greta Martin, deren Organisationstalent unübertroffen ist, und Nadine Gassner, die uns finanziell unterstützt, damit wir an coolen Projekten arbeiten können.

Wir sind den Rezensenten und Rezensentinnen unendlich dankbar, dass sie sich die Zeit genommen haben, frühe Entwürfe durchzulesen, um uns zu helfen, herauszufinden, was nicht zuverlässig funktionierte und was verbessert werden konnte. Das Buch, das du vor dir siehst, unterscheidet sich sehr von dem, was wir ihnen ursprünglich zur Bewertung gegeben haben - zum Besseren. In dieser Kategorie grüßen wir Titus Brown, Aaron Chevalier, Jeff Gentry, Sean Horgan, Lynn Langit, Lee Lichtenstein, Jessica Maia, David Mohs, Andrew Moschetti, Anubhav Shelat und Jonn Smith.

Wir sind auch dem Redaktionsteam von O'Reilly unglaublich dankbar, das das wahrhaft magische Kunststück vollbracht hat, unser Manuskript - ein loses Konglomerat aus Google Docs - in ein richtiges Buch zu verwandeln. Insbesondere danken wir unserer Entwicklungsredakteurin Michele Cronin, die uns von den ersten Entwürfen bis zum fertigen Produkt begleitet hat. Es hat uns viel Überredungskunst und ein paar strenge Ermahnungen bezüglich der Fristen gekostet, um dieses Ziel zu erreichen.

Zu guter Letzt möchten wir uns bei unseren Lieben für ihre Geduld und Unterstützung während der mehr als zwei Jahre bedanken, die wir gebraucht haben, um dieses Buch zu schreiben. Geraldine hofft, dass ihre reizende Frau Jessica und ihre Töchter Gabrielle und Melanie angemessen beeindruckt sein werden und ihre vielen langen Nächte, ihr zwanghaftes Verhalten und ihre allgemeine Unfähigkeit, in dieser Zeit irgendwelche Heimwerkerprojekte abzuschließen, irgendwie vergessen werden. In der Zwischenzeit bedankt sich Brian bei seinem Partner Dhawal für seine unendliche Geduld, sein Verständnis und seine Ermutigung, das Buch fertigzustellen, sowie bei seiner Mutter (Patty) und seinem Vater (Jim) für den gelegentlichen und geschätzten Anstoß, es "fertig zu machen"!

Get Genomik in der Cloud now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.