Capítulo 2. Introducción al análisis de datos con PySpark
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Python es el lenguaje más utilizado para tareas de ciencia de datos. La perspectiva de poder hacer computación estadística y programación web utilizando el mismo lenguaje contribuyó a su aumento de popularidad a principios de la década de 2010. Esto ha dado lugar a un próspero ecosistema de herramientas y a una útil comunidad para el análisis de datos, a menudo denominada ecosistema PyData. Esta es una de las principales razones de la popularidad de PySpark. Poder aprovechar la computación distribuida mediante Spark en Python ayuda a los profesionales de la ciencia de datos a ser más productivos gracias a la familiaridad con el lenguaje de programación y a la presencia de una amplia comunidad. Por esa misma razón, hemos optado por escribir nuestros ejemplos en PySpark.
Es difícil expresar lo transformador que es hacer todo tu trabajo de manipulación y análisis de datos en un único entorno, independientemente de dónde se almacenen y procesen los datos en sí. Es el tipo de cosa que tienes que experimentar para entenderla, y queríamos asegurarnos de que nuestros ejemplos captaran parte de esa sensación mágica que experimentamos cuando empezamos a utilizar PySpark. Por ejemplo, PySpark proporciona interoperabilidad con pandas, que es una de las herramientas PyData más populares. Exploraremos esta característica ...
Get Analítica avanzada con PySpark now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.