Kapitel 9. Analyse von Genomikdatenund das BDG-Projekt
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Das Aufkommen der DNA-Sequenzierungstechnologie der nächsten Generation (NGS) hat die Biowissenschaften schnell in ein datengesteuertes Feld verwandelt. Die optimale Nutzung dieser Daten stößt jedoch auf ein traditionelles Computersystem, das auf schwer zu bedienenden Low-Level-Primitiven für verteiltes Rechnen und einem Dschungel von semistrukturierten textbasierten Dateiformaten basiert.
Dieses Kapitel dient vor allem zwei Zwecken. Erstens stellen wir eine Reihe gängiger Serialisierungs- und Dateiformate (Avro und Parquet) vor, die viele Probleme im Datenmanagement vereinfachen. Mit diesen Serialisierungstechnologien können wir Daten in kompakte, maschinenfreundliche Binärdarstellungen umwandeln. Dies erleichtert die Übertragung von Daten über Netzwerke und die Kompatibilität zwischen verschiedenen Programmiersprachen. Obwohl wir die Techniken der Datenserialisierung bei genomischen Daten anwenden werden, sind die Konzepte auch bei der Verarbeitung großer Datenmengen nützlich.
Zweitens zeigen wir, wie man typische Genomik-Aufgaben im PySpark-Ökosystem durchführt. Wir verwenden PySpark und die Open-Source-Bibliothek ADAM, um große Mengen an Genomdaten zu bearbeiten und Daten aus verschiedenen Quellen zu verarbeiten, um einen Datensatz zur Vorhersage von Transkriptionsfaktor (TF)-Bindungsstellen ...