Overview
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Aprende a utilizar, desplegar y mantener Apache Spark con esta completa guía, escrita por los creadores del marco de computación en clúster de código abierto. Haciendo hincapié en las mejoras y nuevas funciones de Spark 2.0, los autores Bill Chambers y Matei Zaharia dividen los temas de Spark en distintas secciones, cada una con objetivos únicos.
Explorarás las operaciones básicas y las funciones comunes de las API estructuradas de Spark, asà como el Streaming Estructurado, una nueva API de alto nivel para crear aplicaciones de streaming de extremo a extremo. Los desarrolladores y administradores de sistemas aprenderán los fundamentos de la supervisión, el ajuste y la depuración de Spark, y explorarán técnicas y escenarios de aprendizaje automático para emplear MLlib, la biblioteca de aprendizaje automático escalable de Spark.
- Obtén una suave visión general de big data y Spark
- Aprende sobre DataFrames, SQL y Datasetsâ??las API centrales de Sparkâ??mediante ejemplos trabajados
- Sumérgete en las API de bajo nivel de Spark, los RDD y la ejecución de SQL y DataFrames
- Comprende cómo se ejecuta Spark en un clúster
- Depurar, supervisar y ajustar clusters y aplicaciones Spark
- Aprende la potencia de Structured Streaming, el motor de procesamiento de flujos de Spark
- Aprende cómo puedes aplicar MLlib a diversos problemas, como la clasificación o la recomendación
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access