Prefacio

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Escribimos este libro para científicos de datos e ingenieros de datos familiarizados con Python y pandas que buscan manejar problemas a mayor escala de lo que les permiten sus herramientas actuales. Los usuarios actuales de PySpark descubrirán que parte de este material se solapa con sus conocimientos actuales de PySpark, pero esperamos que les siga resultando útil, y no sólo para alejarse de la Máquina Virtual Java (JVM).

Si no estás familiarizado con Python, algunos títulos excelentes de O'Reilly son Learning Python y Python for Data Analysis. Si tú y tu equipo sois usuarios más frecuentes de lenguajes JVM (como Java o Scala), aunque somos un poco parciales, te animamos a que eches un vistazo a Apache Spark junto con Learning Spark (O'Reilly) y High Performance Spark (O'Reilly).

Este libro se centra principalmente en la ciencia de datos y tareas relacionadas porque, en nuestra opinión, es ahí donde Dask destaca más. Si tienes un problema más general para el que Dask no parece encajar del todo, te animamos (de nuevo con un poco de parcialidad) a que le eches un vistazo a Scaling Python with Ray (O'Reilly), que se centra menos en la ciencia de datos.

Una nota sobre la responsabilidad

Como dice el refrán, un gran poder conlleva una gran responsabilidad. Dask y herramientas similares te permiten procesar más datos y construir modelos más complejos. Es esencial no dejarse llevar por la recopilación de datos simplemente porque sí, y pararse a preguntarse si incluir un nuevo campo en tu modelo podría tener algunas implicaciones no deseadas en el mundo real. No tienes que buscar mucho para encontrar historias de ingenieros y científicos de datos bienintencionados que construyeron accidentalmente modelos o herramientas que tuvieron efectos devastadores, como el aumento de la fiscalización de las minorías, la discriminación por razón de género o cosas más sutiles como los sesgos en las incrustaciones de palabras (una forma de representar los significados de las palabras como vectores). Por favor, utiliza tus nuevos poderes teniendo en cuenta estas posibles consecuencias, ya que uno nunca quiere acabar en un libro de texto por las razones equivocadas.

Convenciones utilizadas en este libro

En este libro se utilizan las siguientes convenciones tipográficas:

Cursiva

Indica nuevos términos, URL, direcciones de correo electrónico, nombres de archivo y extensiones de archivo.

Constant width

Se utiliza en los listados de programas, así como dentro de los párrafos para referirse a elementos del programa como nombres de variables o funciones, bases de datos, tipos de datos, variables de entorno, sentencias y palabras clave.

Consejo

Este elemento significa un consejo o sugerencia.

Nota

Este elemento significa una nota general.

Advertencia

Este elemento indica una advertencia o precaución.

Cifras en línea

Los lectores impresos pueden encontrar versiones ampliadas y en color de algunas figuras en https://oreil.ly/SPWD-figures. También aparecen enlaces a cada figura en sus pies de foto.

Licencia

Una vez publicado en papel y excluyendo los elementos de diseño distintivos de O'Reilly (es decir, arte de portada, formato de diseño, "aspecto y sensación") o las marcas comerciales, marcas de servicio y nombres comerciales de O'Reilly, este libro está disponible bajo una Licencia Pública Internacional 4.0 de Reconocimiento-NoComercial-SinObraDerivada de Creative Commons. Nos gustaría dar las gracias a O'Reilly por permitirnos publicar este libro bajo una licencia Creative Commons y esperamos que decidas apoyar este libro (y a nosotros) comprando varios ejemplares (es un excelente regalo para las próximas fiestas).

Utilizar ejemplos de código

El repositorio de GitHub de Scaling Python Machine Learning contiene la mayoría de los ejemplos de este libro. Se encuentran principalmente en el directorio dask, con partes más esotéricas (como el contenedor CUDA multiplataforma) en directorios separados de nivel superior.

Si tienes una pregunta técnica o un problema al utilizar los ejemplos de código, envía un correo electrónico

Este libro está aquí para ayudarte a hacer tu trabajo. En general, si se ofrece código de ejemplo con este libro, puedes utilizarlo en tus programas y documentación. No es necesario que te pongas en contacto con nosotros para pedirnos permiso, a menos que estés reproduciendo una parte importante del código. Por ejemplo, escribir un programa que utilice varios trozos de código de este libro no requiere permiso. Vender o distribuir ejemplos de los libros de O'Reilly sí requiere permiso. Responder a una pregunta citando este libro y el código de ejemplo no requiere permiso. Incorporar una cantidad significativa de código de ejemplo de este libro en la documentación de tu producto sí requiere permiso.

Agradecemos la atribución, pero en general no la exigimos. Una atribución suele incluir el título, el autor, la editorial y el ISBN. Por ejemplo: "Escalando Python con Dask " por Holden Karau y Mika Kimmins (O'Reilly). Copyright 2023 Holden Karau y Mika Kimmins, 978-1-098-11987-4".

Si crees que el uso que haces de los ejemplos de código no se ajusta al uso legítimo o al permiso concedido anteriormente, no dudes en ponerte en contacto con nosotros en

Aprendizaje en línea O'Reilly

Nota

Durante más de 40 años, O'Reilly Media ha proporcionado formación tecnológica y empresarial, conocimientos y perspectivas para ayudar a las empresas a alcanzar el éxito.

Nuestra red única de expertos e innovadores comparten sus conocimientos y experiencia a través de libros, artículos y nuestra plataforma de aprendizaje online. La plataforma de aprendizaje en línea de O'Reilly te ofrece acceso bajo demanda a cursos de formación en directo, rutas de aprendizaje en profundidad, entornos de codificación interactivos y una amplia colección de textos y vídeos de O'Reilly y de más de 200 editoriales. Para más información, visita https://oreilly.com.

Cómo contactar con nosotros

Dirige tus comentarios y preguntas sobre este libro a la editorial:

Tenemos una página web para este libro, donde se enumeran erratas, ejemplos y cualquier información adicional. Puedes acceder a esta página en https://oreil.ly/scaling-python-dask.

Para obtener noticias e información sobre nuestros libros y cursos, visita https://oreilly.com.

Encuéntranos en LinkedIn: https://linkedin.com/company/oreilly-media

Síguenos en Twitter: https://twitter.com/oreillymedia

Míranos en YouTube: https://youtube.com/oreillymedia

Agradecimientos

Este es un libro escrito por dos inmigrantes trans que viven en Estados Unidos en un momento en que los muros pueden parecer que se cierran. Decidimos dedicar este libro a quienes luchan por un mundo más justo de cualquier forma, por pequeña que sea: gracias. A todos los que perdimos o no llegamos a conocer, os echamos de menos. A los que aún no hemos conocido, nos emociona conoceros.

Este libro no existiría si no fuera por las comunidades en las que se basa. De la comunidad Dask a la comunidad PyData, gracias. Gracias a todos los primeros lectores y revisores por sus contribuciones y orientación. Entre estos revisores se encuentran Rubén Berenguel, Adam Breindel, Tom Drabas, Joseph Gnanaprakasam, John Iannone, Kevin Kho, Jess Males y muchos más. Un agradecimiento especial a Ann Spencer por revisar las primeras propuestas de lo que finalmente se convirtió en esto y en Escalar Python con Ray. Cualquier error restante es enteramente culpa nuestra, a veces por ir en contra de los consejos de los revisores.1

Holden también quiere dar las gracias a su mujer y a sus compañeros por soportar sus largas sesiones de escritura en la bañera. Un agradecimiento especial a Timbit por vigilar la casa y, en general, dar a Holden una razón para salir de la cama (aunque a menudo demasiado temprano para su gusto).

spwd 00in01

Mika también quiere dar las gracias a Holden por su tutoría y ayuda, y a sus colegas del departamento de ciencia de datos de Harvard por proporcionarle café gratis ilimitado.

1 A veces somos muy testarudos.

Get Escalando Python con Dask now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.