Book description
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Los sistemas modernos contienen CPU multinúcleo y GPU que tienen potencial para la computación paralela. Pero muchas herramientas científicas de Python no se diseñaron para aprovechar este paralelismo. Con este breve pero exhaustivo recurso, los científicos de datos y los programadores de Python aprenderán cómo la biblioteca de código abierto Dask para la computación paralela proporciona API que facilitan la paralelización de las bibliotecas PyData, incluidas NumPy, pandas y scikit-learn.
Los autores Holden Karau y Mika Kimmins te muestran cómo utilizar los cálculos de Dask en sistemas locales y luego escalarlos a la nube para cargas de trabajo más pesadas. Este práctico libro explica por qué Dask es popular entre expertos de la industria y académicos, y lo utilizan organizaciones como Walmart, Capital One, la Facultad de Medicina de Harvard y la NASA.
Con este libro aprenderás
- Qué es Dask, dónde puedes utilizarlo y cómo se compara con otras herramientas
- Cómo utilizar Dask para el procesamiento paralelo de datos por lotes
- Conceptos clave de sistemas distribuidos para trabajar con Dask
- Métodos para utilizar Dask con APIs de alto nivel y bloques de construcción
- Cómo trabajar con bibliotecas integradas como scikit-learn, pandas y PyTorch
- Cómo utilizar Dask con GPUs
Table of contents
- Prefacio
- 1. ¿Qué es Dask?
- 2. Primeros pasos con Dask
- 3. Cómo funciona Dask: Conceptos básicos
-
4. Dask DataFrame
- Cómo se construyen los DataFrames Dask
- Carga y escritura
- Indexación
- Baraja
- Operaciones embarazosamente paralelas
- Trabajar con varios DataFrames
- Lo que no funciona
- Qué es más lento
- Manejo de algoritmos recursivos
- Datos recalculados
- En qué se diferencian otras funciones
- Ciencia de datos con Dask DataFrame: Poniéndolo todo junto
- Conclusión
- 5. Colecciones de Dask
- 6. Programación avanzada de tareas: Futuros y Amigos
- 7. Añadir Estado Modificable/Mutable con Actores Dask
- 8. Cómo evaluar los componentes y bibliotecas de Dask
- 9. Migrar la ingeniería analítica existente
-
10. Dask con GPU y otros recursos especiales
- Aceleradores transparentes frente a no transparentes
- Comprender si las GPU o las TPU pueden ayudar
- Cómo hacer que Dask sea consciente de los recursos
- Instalar las bibliotecas
- Utilizar recursos personalizados dentro de tus tareas Dask
- Aceleración de la GPU construida sobre Dask
- Liberar recursos del acelerador
- Patrones de diseño: CPU Fallback
- Conclusión
- 11. Aprendizaje automático con Dask
-
12. Producción de Dask: cuadernos, implementación, ajuste y monitoreo
- Factores a considerar en una opción de Implementación
- Creación de Dask en una Implementación de Kubernetes
- Dask en Ray
- Dask en YARN
- Dask en la informática de alto rendimiento
- Extensión Dask JupyterLab y Magias
- Comprender el rendimiento de Dask
- Buenas prácticas de escalado y depuración
- Trabajos programados
- Monitoreo de Implementaciones
- Conclusión
-
A. Conceptos clave del sistema para los usuarios de Dask
- Prueba
- Validación de datos y resultados
- Peer-to-Peer Versus Centralizado Distribuido
- Métodos de paralelismo
- Tolerancia a fallos de red y teorema CAP
- Recursión (con y sin cola)
- Versionado y ramificación: código y datos
- Aislamiento y vecinos ruidosos
- Tolerancia a fallos de la máquina
- Escalabilidad (ascendente y descendente)
- Caché, Memoria, Disco y Redes: Cómo cambia el rendimiento
- Hashing
- Localidad de datos
- Exactamente una vez frente a al menos una vez
- Conclusión
- B. Marcos de datos escalables: Una comparación y algo de historia
- C. Depuración de Dask
- D. Streaming con Streamz y Dask
- Índice
- Sobre los autores
Product information
- Title: Escalando Python con Dask
- Author(s):
- Release date: October 2024
- Publisher(s): O'Reilly Media, Inc.
- ISBN: 9798341603943
You might also like
book
Aprender Python, 5ª Edición
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com Consigue una introducción …
book
Herramientas Python hipermodernas
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com Mantenerse al día …
book
Utilizar Asyncio en Python
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com Si te encuentras …
book
Python de alto rendimiento, 2ª edición
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com Puede que tu …