Capítulo 27. Algoritmos de aproximación y muestreo de flujos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
El procesamiento de flujos plantea retos particulares cuando se trata de elaborar resúmenes de los datos observados a lo largo del tiempo. Como sólo tenemos una oportunidad de observar los valores de un flujo, incluso las consultas consideradas sencillas en un conjunto de datos acotado se convierten en un reto cuando quieres responder a la misma pregunta sobre un flujo de datos.
El quid de la cuestión reside en que esas consultas piden una forma de resumen global, o un resultado supremo, que requiere observar todo el conjunto de datos, por ejemplo:
-
El recuento de todos los elementos distintos del flujo (resumen)
-
Los k elementos más altos del flujo (supremum global)
-
Los k elementos más frecuentes del flujo (supremum global)
Naturalmente, cuando los datos proceden de un flujo, la dificultad estriba en ver todo el conjunto de datos a la vez. Este tipo de consultas pueden responderse ingenuamente almacenando todo el flujo, y tratándolo después como un lote de datos. Pero este almacenamiento no sólo no siempre es posible, sino que es un planteamiento muy torpe. Como verás, podemos construir representaciones sucintas de los datos que reflejen las principales características numéricas de nuestro flujo. Esta sucintidad tiene un coste, medido en la precisión de la respuesta que devuelven: esas estructuras ...
Get Procesamiento de flujos con Apache Spark now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.