Capítulo 5. Las colecciones de Dask

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Hasta ahora has visto los fundamentos de cómo se construye Dask, así como la forma en que Dask utiliza estos bloques de construcción para apoyar la ciencia de datos con DataFrames. Este capítulo explora dónde son más apropiadas las interfaces bag y array de Dask, que a menudo se pasan por alto, en relación con los DataFrames. Como se mencionó en "Hola Mundos", las bolsas de Dask implementan API funcionales comunes, y las matrices de Dask implementan un subconjunto de matrices de NumPy.

Consejo

Entender la partición es importante para entender las colecciones. Si te saltaste "Particionar/unir colecciones", ahora es un buen momento para volver atrás y echar un vistazo.

Matrices Dask

Las matrices Dask implementan un subconjunto de la interfaz ndarray de NumPy, lo que las hace ideales para portar código que utiliza NumPy para ejecutarlo en Dask. Gran parte de tus conocimientos del capítulo anterior sobre DataFrames se trasladan a las matrices Dask, así como gran parte de tus conocimientos sobre ndarrays.

Casos de uso habituales

Algunos casos habituales de uso de las matrices de Dask son:

  • Imágenes a gran escala y datos astronómicos

  • Datos meteorológicos

  • Datos multidimensionales

Al igual que ocurre con los DataFrames y los pandas de Dask, si no utilizarías un nparray para el problema a menor escala, puede que un array de ...

Get Escalando Python con Dask now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.