Capítulo 2. Introducción a Spark y PySpark
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
El objetivo de este capítulo es ponerte al día sobre PySpark y Spark, dándote suficiente información para que te sientas cómodo con los tutoriales del resto del libro. Empecemos por el principio. ¿Qué es exactamente Spark? Desarrollado originalmente en la UC Berkeley en 2009, Apache Spark es un motor analítico de código abierto para big data y aprendizaje automático. Poco después de su lanzamiento, las empresas de muchos sectores lo adoptaron rápidamente, y potencias como Netflix, Yahoo y eBay lo implementan a gran escala para procesar exabytes de datos en clústeres de muchos miles de nodos. La comunidad Spark también ha crecido rápidamente, abarcando a más de 1.000 colaboradores de más de 250 organizaciones.
Nota
Para profundizar en el propio Spark, hazte con un ejemplar de Spark: The Definitive Guide, de Bill Chambers y Matei Zaharia (O'Reilly).
Para prepararte para el resto del libro, este capítulo cubrirá las siguientes áreas:
-
La arquitectura distribuida de Apache Spark
-
Conceptos básicos de Apache Spark (arquitectura de software y estructuras de datos)
-
Inmutabilidad del DataFrame
-
El paradigma funcional de PySpark
-
En qué se diferencian los DataFrames de pandas de los de Spark
-
Scikit-learn frente a PySpark para el aprendizaje automático
Arquitectura de Apache Spark
La arquitectura de Spark consta de los ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access