Capítulo 9. Migrar la ingeniería analítica existente

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Muchos usuarios ya tendrán trabajo analítico actualmente implementado y que desean migrar a Dask. Este capítulo tratará las consideraciones, retos y experiencias de los usuarios que realizan el cambio. La principal vía de migración explorada en el capítulo consiste en trasladar un trabajo existente de ingeniería de big data de otro marco distribuido, como Spark, a Dask.

¿Por qué Dask?

He aquí algunas razones para considerar migrar a Dask desde un trabajo existente que esté implementado en pandas, o bibliotecas distribuidas como PySpark:

Pila Python y PyData

Muchos científicos de datos y desarrolladores prefieren utilizar una pila nativa de Python, donde no tienen que cambiar entre lenguajes o estilos.

Integraciones ML más ricas con las API Dask

Las integraciones de futuros, retardados y ML requieren menos código pegamento por parte del desarrollador para su mantenimiento, y hay mejoras de rendimiento gracias a la gestión más flexible del gráfico de tareas que ofrece Dask.

Gestión detallada de tareas

El gráfico de tareas de Dash se genera y mantiene en tiempo real durante el tiempo de ejecución, y los usuarios pueden acceder al diccionario de tareas de forma sincrónica.

Sobrecarga de depuración

Algunos equipos de desarrolladores prefieren la experiencia de depuración en Python, frente al stacktrace mixto ...

Get Escalando Python con Dask now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.