Apéndice B. Marcos de datos escalables: Una comparacióny algo de historia

El DataFrame distribuido tipo Pandas de Dask es, en nuestra opinión, una de sus características clave. Existen varios enfoques para proporcionar una funcionalidad escalable similar a DataFrame. Uno de los grandes aspectos por los que destacan los DataFrames de Dask es el alto nivel de compatibilidad con las APIs de pandas, que otros proyectos están intentando alcanzar rápidamente. Este apéndice compara algunas de las distintas bibliotecas de DataFrame actuales e históricas.

Para entender las diferencias, nos fijaremos en algunos factores clave, algunos de los cuales son similares a las técnicas que sugerimos en el Capítulo 8. El primero es cómo es la API, y cuánto de tus habilidades y código existentes utilizando pandas se puede transferir. Luego veremos cuánto trabajo se ve obligado a realizar en un único hilo, en el nodo controlador/cabeza, y luego en un único nodo trabajador.

DataFrames escalable no tiene por qué significar distribuido, aunque el escalado distribuido a menudo permite manejar conjuntos de datos mayores de forma asequible que las opciones de una sola máquina, y a escalas realmente masivas, es la única opción práctica.

Herramientas

Una de las dependencias comunes que verás en muchas de las herramientas es que están construidas sobre ASF Arrow. Aunque Arrow es un proyecto fantástico, y esperamos que se siga adoptando, tiene algunas diferencias de tipo, especialmente con respecto a la anulabilidad. ...

Get Escalando Python con Dask now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.