Kapitel 9. Tools zur Datenverarbeitung

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Google Cloud bietet eine Vielzahl von skalierbaren Datenverarbeitungswerkzeugen. Dataflow und Dataproc sind die am häufigsten verwendeten (abgesehen von BigQuery, das in einem anderen Kapitel behandelt wird). Mit diesen Tools kannst du Open Source Apache Spark- oder Apache Beam-Pipelines in einer serverlosen oder nahezu serverlosen Umgebung ausführen. Insbesondere Cloud Dataflow ist eine hervorragende Umgebung für die Ausführung großer, unternehmenskritischer Streaming-Pipelines für Echtzeitanalysen, Dateneingabe und Geschäftslogik. Es gibt auch Low- und No-Code-Tools für die Datenverarbeitung, wie z. B. Cloud Data Fusion. Diese Rezepte sind Beispiele für einige der häufigsten Aufgaben, die du bei der Implementierung von Lösungen mit diesen Tools durchführen wirst, und enthalten einige fortgeschrittene Dataflow-Pipeline-Muster.

Alle Codebeispiele für dieses Kapitel findest du im GitHub-Repository dieses Buches. Du kannst den Code für jedes Rezept kopieren, indem du den Ordner mit der Nummer des jeweiligen Rezepts aufrufst.

9.1 Bereinigung von Daten mit der Data Fusion GUI

Problem

Du möchtest Datensätze in einer wiederholbaren Pipeline in einem GUI-gesteuerten Tool mit wenig oder gar keinem Code bereinigen und zusammenführen.

Lösung

Cloud Data Fusion ermöglicht es Nutzern, mit Daten aus Quellen wie GCS ...

Get Google Cloud Kochbuch now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.