Capítulo 2. Primeros pasos con Dask

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Nos alegra mucho que hayas decidido explorar si Dask es el sistema para ti probándolo. En este capítulo, nos centraremos en empezar a utilizar Dask en su modo local. Con él, exploraremos algunas tareas de computación paralela más sencillas (incluida la favorita de todos, el recuento de palabras).1

Instalar Dask localmente

Instalar Dask localmente es razonablemente sencillo. Si quieres empezar a ejecutarlo en varias máquinas, hacerlo suele ser más fácil si empiezas con un entorno conda (o virtualenv). Esto te permite averiguar de qué paquetes dependes ejecutando pip freeze para asegurarte de que están en todos los trabajadores cuando llegue el momento de escalar.

Aunque puedes simplemente ejecutar pip install -U dask, preferimos utilizar un entorno conda, ya que es más fácil hacer coincidir la versión de Python con la de un clúster, lo que nos permite conectar una máquina local al clúster directamente.2 Si aún no tienes conda en tu máquina, Miniforge es una forma buena y rápida de instalar conda en varias plataformas. La instalación de Dask en un nuevo entorno conda se muestra en el Ejemplo 2-1.

Ejemplo 2-1. Instalar Dask en un nuevo entorno conda
conda create -n dask python=3.8.6  mamba -y
conda activate dask
mamba install --yes python==3.8.6 cytoolz dask==2021.7.0 numpy \
      pandas==1.3.0 beautifulsoup4 requests

Aquí instalamos ...

Get Escalando Python con Dask now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.