Vorwort

Ich wechselte 1985 von der Mathematik in den Bereich der Genomik - ungefähr ein Jahr, bevor dieser Bereich offiziell ins Leben gerufen wurde. Das Wort Genomik wurde 1986 geprägt, als im Cold Spring Harbor Laboratory die erste öffentliche Debatte über die Idee eines Humangenomprojekts geführt wurde.

Es ist schwer vorstellbar, wie viel sich seither verändert hat. Computer spielten in der Biomedizin kaum eine Rolle - der ursprüngliche Entwurf für das Whitehead Institute for Biomedical Research, das Anfang der 1980er Jahre gegründet wurde, sah keinen Computer vor. Große Datenmengen wurden als lästig und nicht als Vorteil angesehen - in einem Nature-Artikel, der über die Debatte um das Humangenomprojekt berichtete, schrieb der Biologie-Redakteur der Zeitschrift: "Wenn die Fähigkeiten und der Einfallsreichtum der modernen Biologie bereits überstrapaziert werden, um Sequenzen von bekannter Bedeutung, wie die der DMD- und CGD-Gene, zu interpretieren, welchen Nutzen könnten dann noch mehr Sequenzen haben?"

Trotz dieser Zweifel beschlossen die Biologen schließlich, weiterzumachen und starteten 1990 das Humangenomprojekt, ihre erste große Datenerfassung. Einer der wichtigsten Beweggründe war die Aussicht, mit systematischen Methoden - statt mit Vermutungen - die Gene zu entdecken, die für menschliche Krankheiten verantwortlich sind. 1980 hatte der brillante Biologe David Botstein eine Idee, wie man die Gene für seltene monogenetische Krankheiten aufspüren könnte, indem man ihre Vererbung in Familien im Verhältnis zu einer genetischen Karte der DNA-Varianten im menschlichen Genom verfolgt. Um diese Idee in vollem Umfang zu verwirklichen, müsste jedoch das gesamte menschliche Genom kartiert und schließlich sequenziert werden.

Das Humangenomprojekt war eine außergewöhnliche Zusammenarbeit, die sich über sechs Länder und zwanzig Institutionen erstreckte, dreizehn Jahre dauerte und 3 Milliarden Dollar kostete. Als sich der Staub gelegt hatte, verfügte die Welt über die drei Milliarden Nukleotide lange DNA-Sequenz eines einzigen menschlichen Genoms.

Als dieses Projekt abgeschlossen war, dachten viele Biologen, dass das Geschäft wieder zur Tagesordnung übergehen würde. Aber was dann geschah, war noch bemerkenswerter. In den nächsten 15 Jahren wurde die Biologie zu einer Informationswissenschaft, in der die Generierung riesiger Datenmengen das Fachgebiet umgestaltete. Ein Beispiel:

  • Die genetische Kartierung in Familien ergab, dass die Gene für mehr als 5.000 schwere seltene monogene Störungen verantwortlich sind.

  • Neue Arten der genetischen Kartierung in Populationen führten zur Entdeckung von ~100.000 robusten Assoziationen zwischen bestimmten genetischen Regionen und häufigen Krankheiten und Merkmalen.

  • Die genetische Analyse von Tausenden von Tumoren deckte Hunderte von neuen Genen auf, in denen Mutationen den Krebs vorantrieben.

Bemerkenswerterweise sind die Kosten für die Sequenzierung eines menschlichen Genoms um das Fünffache gesunken - von 3 Milliarden Dollar auf 600 Dollar - und in den nächsten Jahren werden sie wahrscheinlich bei 100 Dollar liegen. Mehr als eine Million Genome sind bisher sequenziert worden. Insgesamt verdoppeln sich die genomischen Daten aller Art etwa alle acht Monate.

All das wäre nicht möglich gewesen ohne die Entwicklung leistungsfähiger neuer Berechnungsmethoden und Werkzeuge, um mit den vielen neuen Arten von Daten zu arbeiten, die erzeugt wurden. Ein gutes Beispiel dafür ist das Genome Analysis Toolkit, das von Kollegen am Broad Institute entwickelt wurde und über das du in diesem Buch noch viel mehr erfahren wirst.

Die Biowissenschaften befinden sich heute inmitten einer neuen Datenexplosion. Viele Länder unternehmen systematische Anstrengungen, um genomische und medizinische Daten in nationalen Biobanken zu sammeln, die es Forschern ermöglichen, die Genetik häufiger und seltener Krankheiten und Merkmale noch genauer zu untersuchen. Es wird besonders wichtig sein, sicherzustellen, dass die gesamte genetische Vielfalt der Welt in diesen groß angelegten Bemühungen vertreten ist - nicht nur Menschen europäischer Abstammung.

Dank des erstaunlichen technologischen Fortschritts der letzten Jahre können wir jetzt nicht nur den DNA-Bauplan auslesen, sondern auch, wie dieser Bauplan als RNA in einzelnen Zellen abgelesen wird. Es wurden Methoden entwickelt, um die Genexpression auf der Ebene der einzelnen Zelle abzulesen. Aus einer anfänglichen Analyse von 18 Zellen wurden bald Analysen von mehr als 18 Millionen Zellen. Aus dieser Arbeit ist ein internationales Human Cell Atlas Projekt entstanden, an dem mehr als 60 Länder auf der ganzen Welt beteiligt sind. Diese Datensätze machen es möglich, mit Hilfe von Computermethoden, einschließlich des modernen maschinellen Lernens, systematisch auf die zugrunde liegenden Schaltkreise der Zellen zu schließen.

Während sich die biologischen Anwendungen ausbreiten, werden wir jedoch oft durch systembedingte Beschränkungen beim Zugriff und der gemeinsamen Nutzung von Daten aufgehalten. Die meisten biomedizinischen Daten werden traditionell in Silos aufbewahrt, auf die nur über Server zugegriffen werden kann, von denen jeder autorisierte Forscher oder jede Gruppe ihre eigenen Kopien auf die Computerinfrastruktur der eigenen Institution herunterladen muss. Aus rein technischer Sicht ist das unhaltbar. Anstatt die Daten zu den Forschern zu bringen, brauchen wir Systeme, die es den Forschern ermöglichen, mit den Daten dort zu arbeiten, wo sie sich befinden. Außerdem brauchen wir transparentere Modelle für die Verwaltung der Daten und effiziente Möglichkeiten, um zu beurteilen, durchzusetzen und zu überprüfen, wer zu welchem Zweck auf die Daten zugreifen darf. Wir sollten uns an diese vier Grundsätze halten: (1) Das Kopieren von Daten sollte nicht der Standardmodus für die gemeinsame Nutzung von Daten sein; (2) Sicherheit und Prüfung sollten integriert und unternehmenstauglich sein; (3) groß angelegte Analysen sollten allen Forschungsgruppen zugänglich sein; und (4) Rechenressourcen sollten elastisch sein, so dass sie je nach Bedarf vergrößert oder verkleinert werden können.

Cloud Computing hat sich als die führende Lösung für den technischen Aspekt dieser Herausforderungen herauskristallisiert. In der Praxis schafft es jedoch neue Hindernisse, die kreative Lösungen erfordern.

Am Broad Institute haben wir vor vier Jahren damit begonnen, auf die Cloud umzusteigen, um die steigende Flut an genomischen Daten zu bewältigen. Wir haben uns die Zähne ausgebissen, indem wir unsere genomische Datenverarbeitung von einem traditionellen System vor Ort auf ein System umgestellt haben, das in der Cloud läuft, sobald die Daten in unserer Genomsequenz-Plattform erzeugt werden. Dieser Schritt erforderte ein Überdenken aller Aspekte des Prozesses und den Aufbau völlig neuer Systeme, um die Terabytes an Daten zu verarbeiten, die jeden Tag von den Sequenziermaschinen kommen. Aber das war nur der Anfang. Als die Daten erst einmal in der Cloud waren, stießen wir auf das nächste Hindernis: Die verfügbaren Cloud-Dienste sind in ihrem derzeitigen Zustand für Biowissenschaftlerinnen und Biowissenschaftler ohne fortgeschrittene Ausbildung nicht einfach zu nutzen. Also haben wir gemeinsam mit Partnern eine Software- und Analyseplattform entwickelt: Terra.

Andere solche Plattformen sind ebenfalls entstanden, als der Wechsel zur Cloud in der biomedizinischen Forschung an Fahrt aufgenommen hat. Heute arbeiten wir mit vielen anderen Gruppen zusammen, um ein föderiertes Daten-Ökosystem aus miteinander verbundenen Komponenten aufzubauen, die ergänzende Dienste und Fähigkeiten anbieten. Wir gehen davon aus, dass diese Plattformen die Art von offener Zusammenarbeit erleichtern werden, die notwendig ist, um Daten, Werkzeuge und Fachwissen aus verschiedenen Bereichen und Disziplinen zusammenzubringen. Außerdem wollen wir die technischen Hürden für die Teilnahme einzelner Forscher/innen am Cloud-basierten Ökosystem senken, insbesondere für diejenigen, die weniger IT-Ressourcen zur Verfügung haben.

Die Umstellung der Genomik auf die Cloud befindet sich allem Anschein nach noch in der Anfangsphase. Am Broad Institute haben wir auf unserer eigenen Reise in die Cloud viele harte Lektionen gelernt, und wir lernen jeden Tag dazu. In einer Zeit solch umwälzender Veränderungen ist es wichtig, dass Gruppen ihre Erfahrungen miteinander teilen.

Deshalb bin ich so begeistert, dass die unvergleichliche Geraldine Van der Auwera, die sich seit langem für die Forschungsgemeinschaft am Broad Institute einsetzt, und Brian O'Connor, ein leidenschaftlicher Verfechter der Software- und Dateninteroperabilität an der UCSC, dieses Buch geschrieben haben. Das Buch fasst die Essenz dessen zusammen, was wir bisher gelernt haben, und zeigt Neulingen einen leicht zugänglichen Weg auf, sich dem Ökosystem der Genomics Cloud anzuschließen.

Get Genomik in der Cloud now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.