Capítulo 20. Fundamentos del procesamiento de flujos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
El procesamiento de flujos es un requisito clave en muchas aplicaciones de big data. En cuanto una aplicación calcula algo de valor -digamos, un informe sobre la actividad de un cliente, o un nuevo modelo de aprendizaje automático-, una organización querrá calcular este resultado continuamente en un entorno de producción. Como resultado, organizaciones de todos los tamaños están empezando a incorporar el procesamiento en flujo, a menudo incluso en la primera versión de una nueva aplicación.
Por suerte, Apache Spark tiene un largo historial de soporte de alto nivel para el streaming. En 2012, el proyecto incorporó Spark Streaming y su API DStreams, una de las primeras API en permitir el procesamiento de flujos utilizando operadores funcionales de alto nivel como map
y reduce
. Cientos de organizaciones utilizan ahora DStreams en producción para grandes aplicaciones en tiempo real, a menudo procesando terabytes de datos por hora. Sin embargo, al igual que la API Resilient Distributed Dataset (RDD), la API DStreams se basa en operaciones de nivel relativamente bajo sobre objetos Java/Python que limitan las oportunidades de optimización de nivel superior. Así, en 2016, el proyecto Spark añadió Structured Streaming, una nueva API de streaming construida directamente sobre DataFrames que admite tanto optimizaciones enriquecidas ...
Get Spark: La Guía Definitiva now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.