Capítulo 2. Plataformas de procesamiento de flujos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En el Capítulo 1, presentamos en un caso de uso sencillo para hacer llegar datos en tiempo real a los consumidores. También presentamos los conectores y cómo pueden convertir datos en reposo en datos en movimiento (o flujos de eventos) y luego publicarlos en temas en plataformas de streaming.

Los flujos de eventos de ya se pueden leer, pero lo más probable es que aún no estén en un formato que los consumidores puedan utilizar. Los eventos tienden a necesitar limpieza y preparación antes de someterse al procesamiento analítico. Los eventos también deben enriquecerse con el contexto para que sean lo suficientemente útiles como para obtener información. El procesamiento analítico depende en gran medida de la precisión y fiabilidad de los datos. Al abordar problemas como los valores que faltan, las incoherencias, los duplicados y los valores atípicos, se mejora la calidad de los datos, lo que conduce a resultados analíticos más fiables y precisos.

En la Figura 2-1, la preparación de los datos de eventos también puede influir significativamente en el rendimiento de las consultas analíticas. Optimizando la disposición, indexación y partición de los datos, se puede mejorar la eficacia de la recuperación y el procesamiento de los datos. Esto incluye técnicas como la desnormalización de los datos, el almacenamiento en columnas ...

Get Bases de datos de streaming now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.