Skip to Main Content
Erweiterte Analytik mit PySpark
book

Erweiterte Analytik mit PySpark

by Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
September 2024
Intermediate to advanced content levelIntermediate to advanced
236 pages
7h 11m
German
O'Reilly Media, Inc.
Book available
Content preview from Erweiterte Analytik mit PySpark

Kapitel 9. Analyse von Genomikdatenund das BDG-Projekt

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Das Aufkommen der DNA-Sequenzierungstechnologie der nächsten Generation (NGS) hat die Biowissenschaften schnell in ein datengesteuertes Feld verwandelt. Die optimale Nutzung dieser Daten stößt jedoch auf ein traditionelles Computersystem, das auf schwer zu bedienenden Low-Level-Primitiven für verteiltes Rechnen und einem Dschungel von semistrukturierten textbasierten Dateiformaten basiert.

Dieses Kapitel dient vor allem zwei Zwecken. Erstens stellen wir eine Reihe gängiger Serialisierungs- und Dateiformate (Avro und Parquet) vor, die viele Probleme im Datenmanagement vereinfachen. Mit diesen Serialisierungstechnologien können wir Daten in kompakte, maschinenfreundliche Binärdarstellungen umwandeln. Dies erleichtert die Übertragung von Daten über Netzwerke und die Kompatibilität zwischen verschiedenen Programmiersprachen. Obwohl wir die Techniken der Datenserialisierung bei genomischen Daten anwenden werden, sind die Konzepte auch bei der Verarbeitung großer Datenmengen nützlich.

Zweitens zeigen wir, wie man typische Genomik-Aufgaben im PySpark-Ökosystem durchführt. Wir verwenden PySpark und die Open-Source-Bibliothek ADAM, um große Mengen an Genomdaten zu bearbeiten und Daten aus verschiedenen Quellen zu verarbeiten, um einen Datensatz zur Vorhersage von Transkriptionsfaktor (TF)-Bindungsstellen ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Aufbau von Pipelines für maschinelles Lernen

Aufbau von Pipelines für maschinelles Lernen

Hannes Hapke, Catherine Nelson
Roboter mit ROS

Roboter mit ROS

Murat Calis
Blaupausen für Textanalyse mit Python

Blaupausen für Textanalyse mit Python

Jens Albrecht, Sidharth Ramachandran, Christian Winkler

Publisher Resources

ISBN: 9781098190590Supplemental Content