Capítulo 9. Herramientas de tratamiento de datos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Google Cloud ofrece diversas herramientas de procesamiento de datos escalables. Dataflow y Dataproc son las más utilizadas en (al margen de BigQuery, tratado en otro capítulo). Estas herramientas te permiten ejecutar pipelines Apache Spark o Apache Beam de código abierto en un entorno sin servidor o casi sin servidor. Cloud Dataflow, en particular, es un entorno excelente para ejecutar pipelines de streaming a gran escala, de misión crítica, para análisis en tiempo real, ingestión de datos y lógica empresarial. También existen conjuntos de herramientas de procesamiento de datos de bajo y ningún código, como Cloud Data Fusion. Estas recetas son ejemplos de algunas de las tareas más comunes que realizarás al implementar soluciones en estas herramientas, e incluyen algunos patrones de canalización Dataflow más avanzados.
Todos los ejemplos de código de este capítulo están en el repositorio GitHub de este libro. Puedes seguirlos y copiar el código de cada receta yendo a la carpeta con el número de esa receta.
9.1 Limpiar datos utilizando la GUI de Fusión de Datos
Problema
Tú quieres limpiar y unir conjuntos de datos en un pipeline repetible en una herramienta de código bajo o nulo, basada en GUI.
Solución
La Fusión de Datos en la Nube permite a los usuarios interactuar con datos de fuentes como GCS y BigQuery y pipelines ...
Get Libro de cocina de Google Cloud now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.