Kapitel 1. Einführung

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Wir leben in einer Zeit der großen Möglichkeiten: Der technologische Fortschritt macht es möglich, unglaublich detaillierte und umfassende Daten über alles zu generieren, von der Sequenz unserer gesamten Genome bis hin zu den Mustern der Genexpression einzelner Zellen. Wir können nicht nur diese Art von Daten erzeugen, sondern auch eine Menge davon.

In den letzten 10 Jahren hat die Menge der weltweit produzierten Sequenzierungsdaten ein atemberaubendes Wachstum erlebt, das durch eine enorme Kostensenkung bei der Short-Read-Sequenzierung ermöglicht wurde, einer Technologie, die wir in Kapitel 2 untersuchen(Abbildung 1-1). Kürzlich entwickelte und aufstrebende Technologien wie die Long-Read-Sequenzierung und die Einzelzell-Transkriptomik versprechen eine Zukunft mit ähnlich starken Kostensenkungen und einem besseren Zugang zu "Omics"-Experimentalplänen als je zuvor.

A) Projected growth of datasets; B) growth in data production at the Broad Institute.

Die Versprechen und Herausforderungen von Big Data in der Biologie und den Lebenswissenschaften

Jeder, von einzelnen Laboren bis hin zu großen Institutionen, wird bald in der Lage sein, enorme Datenmengen zu erzeugen. Zum jetzigen Zeitpunkt gelten Projekte wie die Sequenzierung ganzer Genome für Hunderttausende von Genomen als groß. In den nächsten zehn Jahren ist mit Projekten zu rechnen, die Millionen von Genomen und Transkriptomen sequenzieren, ergänzt (und verkompliziert) durch eine Vielzahl neuer Datentypen wie fortschrittliche Zellbildgebung und Proteomik. Das Versprechen ist, dass die riesigen Datenmengen und die Vielfalt der neuen Datentypen es den Forschern ermöglichen werden, der Beantwortung einiger der schwierigsten - wenn auch schwierig zu stellenden - Fragen der Biologie näher zu kommen. Wie viele Zelltypen gibt es zum Beispiel im menschlichen Körper? Welche genetischen Varianten verursachen Krankheiten? Wie entstehen Krebserkrankungen, und können wir sie vorhersagen? Da Forschung von Natur aus ein Mannschaftssport ist, werden wir viele der anstehenden Daten und unsere Algorithmen zur Analyse dieser Daten mit anderen teilen und die Ergebnisse mit der ganzen Welt teilen wollen.

Herausforderungen für die Infrastruktur

Die doppelte Chance der sinkenden Kosten und der erweiterten Versuchspläne, die den Forschern zur Verfügung stehen, bringt eine Reihe von Herausforderungen mit sich. Es ist nicht leicht, auf der Höhe der Zeit zu sein, und jede neue Technologie bringt ihre eigenen Komplikationen mit sich. Wie liest man einzelne Basen korrekt, wenn sie durch eine Nanopore huschen? Wie kann man lebende Zellen in 3D abbilden, ohne sie zu verbraten? Wie vergleicht man die Einzelzell-Expressionsdaten eines Labors mit denen eines anderen Labors und korrigiert dabei die Unterschiede aufgrund von Chargeneffekten? Das sind nur einige Beispiele aus einer langen Liste von technischen Herausforderungen, mit denen wir konfrontiert werden, wenn wir einen neuen Versuchsplan entwickeln oder optimieren.

Aber die Schwierigkeit hört nicht bei der Datengenerierung auf, sondern ist erst der Anfang. Wenn die Experimente abgeschlossen sind und du die Daten in der Hand hast, musst du mit einer ganz neuen Welt der Komplexität rechnen. Einer der schwierigsten Aspekte der 'omics-Forschung ist die Frage, wie man mit den Daten umgehen soll, nachdem sie erzeugt wurden. Wenn deine Bildgebungsstudie ein Terabyte an Daten pro Experiment erzeugt, wo speicherst du die Bilder, um sie zugänglich zu machen? Wenn deine Ganzgenomsequenzierungsstudie neben den Sequenzdaten eine komplexe Mischung aus klinischen und phänotypischen Daten erzeugt, wie organisierst du diese Daten, damit sie sowohl innerhalb deiner eigenen Gruppe als auch für die breitere Forschungsgemeinschaft auffindbar sind, wenn du sie veröffentlichst? Wenn du deine Methodik aktualisieren musst, um die neueste Version der Analysesoftware für mehr als 100.000 Proben zu verwenden, wie wirst du deine Analyse skalieren? Wie kannst du sicherstellen, dass deine Analysemethoden in verschiedenen Umgebungen, auf unterschiedlichen Plattformen und in verschiedenen Organisationen richtig funktionieren? Und wie kannst du sicherstellen, dass deine Methoden auch von Biowissenschaftlern reproduziert werden können, die nur wenig oder gar keine formale Ausbildung in Informatik haben ?

In diesem Buch zeigen wir dir, wie du die Public Cloudnutzen kannst - Rechenleistungen, die auf Abruf über das Internet zur Verfügung gestellt werden -, um einige dieser grundlegenden Infrastrukturprobleme zu lösen. Doch zunächst wollen wir darüber sprechen, warum wir die Cloud für eine besonders attraktive Lösung halten und welche Einschränkungen es dabei gibt.

Dies soll keine erschöpfende Auflistung aller verfügbaren Optionen sein. So wie die Landschaft der Versuchspläne sehr vielfältig ist, gibt es auch viele Möglichkeiten, die Cloud in der Forschung zu nutzen. Stattdessen konzentriert sich dieses Buch darauf, die Vorteile weit verbreiteter Werkzeuge und Methoden zu nutzen. Dazu gehören die Best Practice Genomik-Workflows des Genome Analysis Toolkit (GATK)(Abbildung 1-2), die mit der Workflow Description Language (WDL) implementiert wurden und auf jeder der in der Forschung üblichen Plattformen ausgeführt werden können. Wir zeigen dir, wie du sie in der Google Cloud Platform (GCP) nutzen kannst, zunächst über die GCP-eigenen Dienste und dann auf der Terra-Plattform, die vom Broad Institute und Verily auf der GCP betrieben wird.

GATK provides a series of best-practice workflows to process sequence data for a variety of experimental designs.

Wenn du mit diesem End-to-End-Stack beginnst, erwirbst du grundlegende Fähigkeiten, die es dir ermöglichen, die vielen anderen Optionen für Workflow-Sprachen, Analysetools, Plattformen und die Cloud zu nutzen.

Auf dem Weg zu einem Cloud-basierten Ökosystem für Datenaustausch und -analyse

Aus Abbildung 1-1 kannst du ersehen, dass die Datenmenge schon jetzt schneller wächst, als das ehrwürdige Moore'sche Gesetz mithalten kann, und wie wir bereits besprochen haben, schießen neue Versuchspläne, die riesige Datenmengen erzeugen, wie Pilze aus dem Boden. Diese Datenflut ist in vielerlei Hinsicht die treibende Kraft, die die Verlagerung der wissenschaftlichen Datenverarbeitung in die Cloud vorantreibt. Es ist jedoch wichtig zu verstehen, dass die öffentliche Cloud in ihrer jetzigen Form vor allem eine Ansammlung von einfachen Infrastrukturkomponenten ist. Für die meisten Zwecke ist es das, was wir auf diesen Komponenten aufbauen, das den Forschern wirklich hilft, ihre Arbeit zu verwalten und die wissenschaftlichen Fragen zu beantworten, die sie untersuchen. All dies ist Teil eines größeren Wandels, der sich die Vorteile von in der Cloud gehosteten Daten, Berechnungen und portablen Algorithmen zunutze macht, zusammen mit Plattformen, die die Arbeit damit erleichtern, Standards für die Kommunikation zwischen den Plattformen und eine Reihe von konzeptionellen Prinzipien, die die Wissenschaft für alle offen machen .

Cloud-gehostete Daten und Rechenleistung

Die erste große Herausforderung dieser anbrechenden Big-Data-Ära der Biologie besteht darin, wie wir diese großen Datensätze der Forschungsgemeinschaft zur Verfügung stellen. Der traditionelle Ansatz, der in Abbildung 1-3 dargestellt ist, beinhaltet zentrale Datenspeicher, von denen interessierte Forscher Kopien der Daten herunterladen müssen, um sie auf den lokalen Rechnern ihrer Einrichtung zu analysieren. Dieser Ansatz, die Daten zu den Menschen zu bringen, ist jedoch bereits ziemlich verschwenderisch (jeder zahlt für die Speicherung von Kopien derselben Daten) und kann angesichts des zu erwartenden massiven Wachstums (sowohl bei der Anzahl als auch bei der Größe der Daten), das in Petabytes (PB; 1.000 Terabytes) gemessen wird, unmöglich skalieren.

Wir schätzen zum Beispiel, dass die US National Institutes of Health (NIH) und andere Organisationen in den nächsten fünf Jahren mehr als 50 PB an genomischen Daten hosten werden, die für die Forschungsgemeinschaft zugänglich sein müssen. Es sind einfach zu viele Daten, als dass ein einzelner Forscher Zeit damit verbringen könnte, sie herunterzuladen, und zu viele, als dass jede Forschungseinrichtung sie lokal für ihre Forscher hosten könnte. Auch der Rechenaufwand für die Analyse von genomischen, bildgebenden und anderen Versuchsplänen ist sehr hoch. Nicht jeder hat einen Computer-Cluster mit Tausenden von CPUs zur Verfügung.

Die Lösung, die sich in den letzten Jahren herauskristallisiert hat, besteht darin, das Drehbuch umzudrehen und "die Menschen zu den Daten zu bringen". Anstatt die Daten in reinen Speicher-Silos zu deponieren, hosten wir sie in weithin zugänglichen Repositories, die direkt mit Rechenressourcen verbunden sind. So kann jeder, der Zugang dazu hat, Analysen mit den Daten dort durchführen, wo sie sich befinden, ohne sie zu übertragen (siehe Abbildung 1-3). Auch wenn diese Anforderungen (breiter Zugang und Rechenleistung in Verbindung mit Speicherung) durch eine Vielzahl von technischen Lösungen erfüllt werden können, ist die am leichtesten verfügbare eine öffentliche Cloud-Infrastruktur. Was das im Einzelnen bedeutet, wird in Kapitel 3 im Rahmen der Technologiefibel erläutert. Stell dir einfach vor, dass eine Cloud wie die High-Performance-Computing-Installation (HPC) einer Institution ist, nur dass sie in der Regel viel größer und flexibler in Bezug auf die Konfigurationsmöglichkeiten ist und jeder Zeit auf der Anlage mieten kann.

Zu den beliebten Cloud-Angeboten gehören Amazon Web Services (AWS), GCP und Microsoft Azure. Sie bieten die grundlegenden Rechen- und Speicherfunktionen, aber auch fortschrittlichere Dienste, wie z. B. die Pipelines API auf GCP, die wir in Kapitel 10 für die Durchführung von Analysen im großen Maßstab nutzen.

Im Gegensatz zu den traditionellen HPC-Clustern, bei denen du deine Analyse in einer Weise skriptest, die sehr stark von der Umgebung abhängt, regt das in Abbildung 1-3 dargestellte Modell dazu an, über die Übertragbarkeit von Analyseansätzen nachzudenken. Da mehrere Clouds um Marktanteile konkurrieren und jede von ihnen mehrere Datensätze speichert und zugänglich macht, werden Forscher/innen ihre Algorithmen auf die Daten anwenden wollen, egal wo sie sich befinden. In den letzten Jahren sind daher hochgradig portierbare Workflow-Sprachen populär geworden, die in verschiedenen Systemen auf unterschiedlichen Clouds laufen können. Dazu gehören WDL (die wir in diesem Buch verwenden und in Kapitel 8 näher erläutern), Common Workflow Language (CWL) und Nextflow.

Plattformen für die Forschung in den Biowissenschaften

Der Nachteil des Umstiegs auf die Cloud ist, dass die ohnehin schon nicht triviale Welt der Forschungsinformatik um eine neue Ebene (oder möglicherweise mehrere) erweitert wird. Auch wenn einige Forscher/innen bereits über eine ausreichende Ausbildung oder persönliche Affinität verfügen, um herauszufinden, wie sie Cloud-Dienste bei ihrer Arbeit effektiv nutzen können, sind sie zweifellos in der Minderheit. Die weitaus größere Mehrheit der biomedizinischen Forschungsgemeinschaft ist in der Regel nicht ausreichend gerüstet, um mit den "nackten" Diensten der Public-Cloud-Anbieter umzugehen. Daher besteht ein klarer und dringender Bedarf an der Entwicklung von Plattformen und Schnittstellen, die auf die Bedürfnisse von Forschern zugeschnitten sind, die von den betrieblichen Details abstrahieren und es diesen Forschern ermöglichen, sich auf die Wissenschaft zu konzentrieren.

Mehrere populäre Plattformen bieten benutzerfreundliche Webschnittstellen, die es Forschern ermöglichen, per Mausklick auf die Speicherung und Berechnung in der Cloud zuzugreifen. Terra (mit dem wir uns in Kapitel 11 beschäftigen und das wir auch im weiteren Verlauf des Buches nutzen werden), Seven Bridges, DNAnexus und DNAstack bieten Forschern diese hochentwickelten Plattformen über das Internet an.

Diese und ähnliche Plattformen können unterschiedliche Benutzeroberflächen haben und sich auf verschiedene Funktionen konzentrieren, aber im Kern bieten sie den Nutzern eine Arbeitsumgebung. Dies ist ein Ort, an dem Forscher ihre Daten, Metadaten und analytischen Workflows zusammenführen und mit ihren Kollegen teilen können. Die Workspace-Metapher ermöglicht es den Forschern dann, Analysen durchzuführen - auf Terra könnte das zum Beispiel ein Batch-Workflow in WDL oder ein Jupyter Notebook für interaktive Analysen sein - ohne jemals in die zugrunde liegenden Cloud-Details eintauchen zu müssen. Wir sehen uns das in den Kapiteln 11, 12 und 13 in Aktion an. Das Fazit ist, dass diese Plattformen es Forschern ermöglichen, die Leistung und den Umfang der Cloud zu nutzen, ohne sich mit der zugrunde liegenden Komplexität auseinandersetzen zu müssen.

Bundesweite Cloud-Initiativen zur Unterstützung der biomedizinischen Forschung in den USA

Förderorganisationen wie das National Cancer Institute (NCI) in den Vereinigten Staaten haben die Umstellung der biomedizinischen Forschung auf eine öffentliche Cloud-Infrastruktur maßgeblich unterstützt. Eines der ersten Beispiele für diese Verlagerung in die Cloud ist das vom NCI finanzierte Pilotprogramm Cancer Genomics Cloud (CGC). Dieses Programm unterstützte die Entwicklung einer Cloud-Infrastruktur für die Daten des The Cancer Genome Atlas (TCGA), mit entsprechenden Sicherheits- und Zugriffskontrollen sowie kollokierten Analysetools.

Das NCI hat drei Bewerbern den Zuschlag erteilt: dem kommerziellen Unternehmen Seven Bridges, dem Institute for Systems Biology (ISB), einer gemeinnützigen Forschungseinrichtung in Seattle, WA, und dem Broad Institute of MIT and Harvard, ebenfalls eine gemeinnützige Forschungseinrichtung in Cambridge, MA. Seven Bridges bietet die Möglichkeit, entweder auf GCP oder AWS zu arbeiten, während das ISB und das Broad Institute ihre Analyseplattformen auf der Basis von Google Cloud aufgebaut haben. Mehr über das Programm und seine Entwicklung kannst du im NCI-Blog lesen.

Das NCI-Cloud-Pilotprogramm hat eine bahnbrechende Rolle dabei gespielt, dass die Gruppen, die die Infrastruktur entwickeln, den Ball ins Rollen bringen konnten. Für alle drei ausgezeichneten Gruppen und ihre Mitarbeiter war es ein langer Weg der Bedarfsermittlung, der Entwicklung von Prototypen und des Experimentierens mit Technologien und Schnittstellen, um die feinsten Nadeln einzufädeln: Forscherinnen und Forscher mit minimalem Rechenhintergrund in die Lage zu versetzen, das Beste aus massiven Rechenressourcen herauszuholen, sicher und effizient. Alle drei ursprünglichen Pilotprojekte bieten heute stabile Dienste an, die monatlich Tausende von Nutzern unterstützen und in vielen Fällen wichtige Forschungsarbeiten ermöglichen, die sonst nicht ohne Weiteres möglich gewesen wären.

In diesem Buch wirst du die Möglichkeit haben, die Terra Community Workbench zu nutzen, eine Teilmenge der Terra-Plattform, die vom Broad Institute und Verily auf der Grundlage unserer Erfahrungen mit FireCloud (dem Cloud-Pilotprojekt des Broad Institute) entwickelt wurde. Die Terra Community Workbench bietet biomedizinischen Forschern Zugang zu leistungsstarken Datenmanagement- und Analysefunktionen. In diesem Buch verwenden wir den Namen Terra sowohl für die Community Workbench als auch für die zugrunde liegenden Funktionen der Terra-Plattform, die auch Anwendungen wie die All of Us Researcher Workbench und das Single Cell Portal unterstützen.

Die NIH, die größte biomedizinische Forschungsbehörde der Welt, hat sich verpflichtet, das Angebot an Daten und Diensten, die über eine öffentliche Cloud-Infrastruktur verfügbar sind, zu erweitern. Tatsächlich unterstützen die NIH derzeit mehrere Programme zum Thema Hosting von staatlich finanzierten Datensätzen und Tools in der Cloud. Auch andere Länder und Förderer haben sich für die Nutzung von Clouds für Forscher/innen entschieden, wie z.B. ELIXIR in Europa.

Standardisierung und Wiederverwendung von Infrastruktur

Es klingt also so, als stünden Forschern mehrere Clouds zur Verfügung, mehrere Gruppen haben Plattformen auf diesen Clouds aufgebaut und sie alle lösen ähnliche Probleme, indem sie Daten und Rechenleistung an Orten unterbringen, auf die Forscher leicht zugreifen können. Die Kehrseite der Medaille ist, dass diese verschiedenen Datenspeicher und Plattformen organisationsübergreifend interoperabel sein müssen. Eine der großen Hoffnungen, die mit der Verlagerung von Daten und Analysen in die Cloud verbunden ist, besteht darin, dass dadurch die traditionellen Silos aufgebrochen werden, die in der Vergangenheit die Zusammenarbeit und die Anwendung von Analysen über mehrere Datensätze hinweg erschwert haben. Stell dir vor, du könntest Petabytes an Daten in eine einzige übergreifende Analyse einbeziehen, ohne dir Gedanken darüber machen zu müssen, wo die Dateien liegen, wie sie übertragen und wie sie gespeichert werden. Und nun die gute Nachricht: Der Traum von einem Mechanismus für föderierte Datenanalysen ist bereits Realität und wird immer besser!

Der Schlüssel zu dieser Vision, Daten unabhängig von Plattform und Cloud zu nutzen, sind Standards. Organisationen wie die Global Alliance for Genomics and Health (GA4GH) haben Pionierarbeit geleistet, indem sie die Art und Weise, wie Plattformen miteinander kommunizieren, harmonisiert haben. Diese Standards reichen von Dateiformaten wie CRAMs, BAMs und VCFs (die in diesem Buch durchgängig verwendet werden) bis hin zu Anwendungsprogrammierschnittstellen (APIs), die Speicherung, Berechnung, Erkennung und Benutzeridentität zwischen Plattformen verbinden. Es mag langweilig oder trocken erscheinen, über APIs und Dateiformate zu sprechen, aber in Wirklichkeit wollen wir, dass die Cloud-Plattformen gemeinsame APIs unterstützen, damit die Forscher/innen die Barrieren zwischen den Cloud-Plattformen überwinden und die Daten unabhängig vom Standort nutzen können.

Softwarearchitektur, gemeinsame Nutzung von Visionen und Wiederverwendung von Komponenten sind neben Standards weitere wichtige Faktoren für Interoperabilität. In den letzten Jahren haben fünf US-Organisationen, die mit Unterstützung von NIH-Agenturen und an der Entwicklung von Cloud-Infrastrukturen beteiligt sind, gemeinsam an der Entwicklung interoperabler Infrastrukturkomponenten unter der gemeinsamen Vision einer Data Biosphere gearbeitet. Technologieführer der fünf Partnerorganisationen - die Vanderbilt University in Nashville, TN, die University of California, Santa Cruz (UCSC), die University of Chicago, das Broad Institute und Verily, ein Unternehmen von Alphabet - haben diese gemeinsame Vision eines offenen Ökosystems in einem Blogpost auf Medium im Oktober 2017 vorgestellt. Die Data Biosphere hebt vier Grundpfeiler hervor: Sie sollte von der Gemeinschaft getragen werden, auf Standards basieren, modular sein und Open Source. Neben dem Manifest, dessen vollständige Lektüre wir dir ans Herz legen, haben die Partner diese Prinzipien in die Komponenten und Dienste integriert, die jeder von ihnen entwickelt und betreibt.

Die gemeinschaftsbasierte Entwicklung von Standards in GA4GH und die Vision der Systemarchitektur und der gemeinsamen Nutzung von Softwarekomponenten in Data Biosphere haben uns gemeinsam vorangebracht. Das Ergebnis dieser gemeinsamen Bemühungen ist, dass du dich heute bei der Terra-Plattform des Broad Institute anmelden, Daten aus mehreren Repositories der University of Chicago, des Broad Institute und anderer in einen privaten Arbeitsbereich auf Terra importieren, einen Workflow aus dem Dockstore-Methoden-Repository importieren und deine Analyse mit wenigen Klicks sicher in der Google Cloud ausführen kannst, wie in Abbildung 1-4 dargestellt.

Data Biosphere principles in action: federated data analysis across multiple datasets in Terra using a workflow imported from Dockstore and executed in GCP.

Um es klar zu sagen: Die Vision eines Ökosystems der Datenbiosphäre ist noch lange nicht verwirklicht. Es gibt immer noch große Hürden zu überwinden. Einige sind rein technischer Natur, andere liegen in den Praktiken und Anreizen begründet, die Einzelpersonen, Gemeinschaften und Organisationen antreiben. So besteht zum Beispiel ein großer Bedarf an einer stärkeren Standardisierung der Art und Weise, wie Dateneigenschaften formal in Metadaten beschrieben werden, was sich sowohl auf die Durchsuchbarkeit von Datensätzen als auch auf die Durchführbarkeit einer föderierten Datenanalyse auswirkt. Konkret bedeutet dies, dass es viel schwieriger ist, eine gemeinsame Analyse auf Proben aus verschiedenen Datensätzen anzuwenden, wenn die entsprechenden Dateien in den Metadaten unterschiedlich gekennzeichnet sind - man muss also eine "Übersetzung" dafür liefern, wie die Daten in den verschiedenen Datensätzen zueinander passen (input_bam in einem, bam in einem anderen, aligned_reads in einem dritten). Um dieses Problem zu lösen, müssen wir die relevanten Forschungsgemeinschaften zusammenbringen, um gemeinsame Standards festzulegen. Die Technologie kann dann eingesetzt werden, um die gewählten Konventionen durchzusetzen, aber jemand (oder idealerweise mehrere) muss diese Standards erst einmal formulieren.

Ein weiteres Beispiel für ein Hindernis, das eher vom Menschen als von der Technologie verursacht wird: Die biomedizinische Forschung würde eindeutig von Mechanismen profitieren, die es ermöglichen, föderierte Analysen nahtlos über verschiedene Infrastrukturplattformen hinweg durchzuführen, z. B. von der Cloud in die Cloud (Google Cloud und AWS), von der Cloud in den lokalen Rechner (Google Cloud und der lokale HPC-Cluster deiner Einrichtung) und jede andere Kombination, die du dir zu diesem Thema vorstellen kannst. Es gibt eine gewisse technische Komplexität, insbesondere in Bezug auf das Identitätsmanagement und die sichere Authentifizierung, aber ein wichtiges Hindernis ist, dass dieses Konzept nicht immer mit dem Geschäftsmodell der kommerziellen Cloud-Anbieter und Software-Provider übereinstimmt. Ganz allgemein müssen viele Organisationen an der Entwicklung und dem Betrieb eines solchen Ökosystems beteiligt sein, was eine Reihe von Komplikationen mit sich bringt, die von rechtlichen Aspekten (Datennutzungsvereinbarungen, Betriebsgenehmigungen und Datenschutzgesetze in verschiedenen Ländern) bis hin zu technischen Aspekten (Interoperabilität der Infrastruktur, Datenharmonisierung) reichen.

Nichtsdestotrotz wurden in den letzten Jahren erhebliche Fortschritte gemacht und wir kommen der Vision der Data Biosphere immer näher. Viele Gruppen und Organisationen arbeiten aktiv am Aufbau interoperabler Cloud-Infrastrukturkomponenten, obwohl sie in direkter Konkurrenz zu verschiedenen Förderprogrammen stehen. Das gemeinsame Ziel, Plattformen zu schaffen, die Daten und Rechenleistung miteinander austauschen können, damit Forscher/innen Daten über verschiedene Systeme hinweg finden, mischen und anpassen und in der Umgebung ihrer Wahl rechnen können, wird immer mehr zur Realität. Terra als Plattform steht an der Spitze dieses Trends und ist ein wesentlicher Bestandteil für den Zugang zu einer Vielzahl von Forschungsdatensätzen aus Projekten des NCI, des National Human Genome Research Institute (NHGRI), des National Heart, Lung, and Blood Institute (NHLBI), des Human Cell Atlas und des Project Baseline von Verily, um nur einige zu nennen. Dies ist möglich, weil diese Projekte die GA4GH-APIs und die gemeinsamen architektonischen Prinzipien der Data Biosphere übernehmen und damit mit Terra und anderen Plattformen kompatibel sind, die diese Standards und Designphilosophien übernehmen.

FAIR sein

Bislang haben wir in diesem Kapitel viel behandelt. Wir haben mit dem phänomenalen Datenwachstum in den Biowissenschaften begonnen und gezeigt, wie dieses das alte Modell des Datendownloads unter Druck setzt und Forscher/innen zu einem besseren Modell drängt, das die Cloud für Speicherung und Berechnung nutzt. Wir haben uns auch angeschaut, was die Community unternimmt, um die Art und Weise zu standardisieren, wie Daten und Rechenleistung in der Cloud zugänglich gemacht werden, und wie die Philosophie der Data Biosphere die Art und Weise prägt, wie Plattformen zusammenarbeiten, um sich für Forscher/innen zugänglich zu machen.

Die Vorteile dieses Modells liegen für Plattformentwickler auf der Hand, die das Rad nicht neu erfinden wollen und motiviert sind, APIs, Komponenten und Architekturen so weit wie möglich wiederzuverwenden. Aber wie lassen sich diese Standards der GA4GH und die Architektur der Data Biosphere aus Sicht der Forscher/innen in Verbesserungen für ihre Forschung umsetzen?

Zusammengenommen ermöglichen diese Standards und architektonischen Prinzipien, die in Plattformen wie Terra angewandt werden, den Forschern, ihre Forschung FAIR zu machen: auffindbar, zugänglich, interoperabel und wiederverwendbar.² Darauf gehen wir in Kapitel 14 näher ein. Für den Moment ist es jedoch sinnvoll, sich vor Augen zu führen, dass die bis hierher beschriebene Arbeit der Plattformhersteller allesamt darauf abzielt, ihre Systeme, Werkzeuge und Daten für Forscher FAIR zu machen. Durch die Nutzung der Cloud, das Schreiben portabler Workflows in Sprachen wie WDL, die Durchführung von Analysen in Terra und das Teilen von Workflows auf Dockstore können Forscher ihre eigene Arbeit FAIR gestalten. Dies ermöglicht es anderen Forschern, Analysetechniken zu finden und darauf zuzugreifen, zu interagieren, die Analyse an verschiedenen Orten durchzuführen und schließlich Werkzeuge als Sprungbrett für neue Entdeckungen wiederzuverwenden. Im Laufe des Buches kommen wir immer wieder auf die FAIR-Prinzipien zurück, sowohl aus der Perspektive der Plattformentwickler als auch der Forscher.

Nachbereitung und nächste Schritte

Nachdem wir dir nun einige der zentralen Gründe genannt haben, warum die Genomik als Disziplin in die Cloud verlagert wird, wollen wir noch einmal rekapitulieren, wie dieses Buch dir den Einstieg in diese schöne neue Welt erleichtern soll, wie im Vorwort beschrieben. Wir haben es als eine Reise konzipiert, die dich durch eine Reihe von technischen Themen führt, mit dem Ziel, die oben genannten Herausforderungen an die Infrastruktur zu bewältigen und dir schließlich zu zeigen, wie du deine Arbeit in der Cloud erledigen kannst - und das auch noch FAIR.

Erinnere dich daran, dass es viele verschiedene Wege gibt, diese Herausforderungen mit unterschiedlichen Lösungen anzugehen, und wir konzentrieren uns hier nur auf einen bestimmten Ansatz. Dennoch hoffen wir, dass die folgenden Kapitel dir eine solide Grundlage für deine eigene Arbeit bieten:

Kapitel 2 und Kapitel 3: Wir erforschen die Grundlagen der Biologie und des Cloud Computing.
Kapitel 5 bis Kapitel 7: Wir beschäftigen uns mit dem GATK-Toolkit und den aktuellen bewährten Methoden für die Entdeckung von Keimbahn- und somatischen Varianten.
Kapitel 8 und Kapitel 9: Wir beschreiben, wie du deine Analysen automatisieren und mit in WDL geschriebenen Workflows portabel machen kannst.
Kapitel 10 und Kapitel 11: Wir beginnen mit der Skalierung der Analyse zuerst in der Google Cloud, dann in Terra.
Kapitel 12: Wir ergänzen die workflowbasierte Analyse mit der interaktiven Analyse mit Jupyter in Terra.
Kapitel 13 und Kapitel 14: Wir zeigen dir, wie du deine eigenen Arbeitsbereiche in Terra erstellst und bringen alles, was du gelernt hast, zusammen, um dir zu zeigen, wie du ein vollständig FAIRes Papier erstellst.

Am Ende des Buches sollst du die bewährten Methoden für die Analyse von Genomdaten kennen, dich mit WDL wohlfühlen, um deine Analyseprozesse auszudrücken, Terra sowohl für workflowbasierte als auch für interaktive Analysen im großen Maßstab nutzen und deine Arbeit mit deinen Kollegen teilen können.

Lass uns loslegen!

¹ Stephens ZD, et al. "Big Data: Astronomical or Genomical?" PLoS Biol 13(7): e1002195 (2015). https://doi.org/10.1371/journal.pbio.1002195.

² Die FAIR Guiding Principles for scientific data management and stewardship von Mark D. Wilkinson et al. ist die Originalveröffentlichung dieser Grundsätze.

Get Genomik in der Cloud now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

Genomik in der Cloud by Geraldine A. Van der Auwera, Brian D. O'Connor

Kapitel 1. Einführung

Abbildung 1-1. Aufgezeichnetes Wachstum der Sequenzierungsdatensätze bis 2015 und prognostiziertes Wachstum für das nächste Jahrzehnt (oben); Wachstum der Datenproduktion am Broad Institute (unten).¹

Die Versprechen und Herausforderungen von Big Data in der Biologie und den Lebenswissenschaften

Herausforderungen für die Infrastruktur

Abbildung 1-2. GATK bietet eine Reihe von bewährten Methoden zur Verarbeitung von Sequenzdaten für eine Vielzahl von Versuchsplänen.

Auf dem Weg zu einem Cloud-basierten Ökosystem für Datenaustausch und -analyse

Cloud-gehostete Daten und Rechenleistung

Abbildung 1-3. Umkehrung des Modells für die gemeinsame Nutzung von Daten.

Plattformen für die Forschung in den Biowissenschaften

Standardisierung und Wiederverwendung von Infrastruktur

Abbildung 1-4. Die Prinzipien der Data Biosphere in Aktion: föderierte Datenanalyse über mehrere Datensätze in Terra mit einem aus Dockstore importierten und in GCP ausgeführten Workflow.

FAIR sein

Nachbereitung und nächste Schritte

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly

Kapitel 1. Einführung

Abbildung 1-1. Aufgezeichnetes Wachstum der Sequenzierungsdatensätze bis 2015 und prognostiziertes Wachstum für das nächste Jahrzehnt (oben); Wachstum der Datenproduktion am Broad Institute (unten).1

Die Versprechen und Herausforderungen von Big Data in der Biologie und den Lebenswissenschaften

Herausforderungen für die Infrastruktur

Abbildung 1-2. GATK bietet eine Reihe von bewährten Methoden zur Verarbeitung von Sequenzdaten für eine Vielzahl von Versuchsplänen.

Auf dem Weg zu einem Cloud-basierten Ökosystem für Datenaustausch und -analyse

Cloud-gehostete Daten und Rechenleistung

Abbildung 1-3. Umkehrung des Modells für die gemeinsame Nutzung von Daten.

Plattformen für die Forschung in den Biowissenschaften

Standardisierung und Wiederverwendung von Infrastruktur

Abbildung 1-4. Die Prinzipien der Data Biosphere in Aktion: föderierte Datenanalyse über mehrere Datensätze in Terra mit einem aus Dockstore importierten und in GCP ausgeführten Workflow.

FAIR sein

Nachbereitung und nächste Schritte

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly

Abbildung 1-1. Aufgezeichnetes Wachstum der Sequenzierungsdatensätze bis 2015 und prognostiziertes Wachstum für das nächste Jahrzehnt (oben); Wachstum der Datenproduktion am Broad Institute (unten).¹