Sistemas de streaming

Book description

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Hoy en día, el streaming de datos es algo muy importante en el ámbito de los macrodatos. A medida que más y más empresas tratan de domar los enormes conjuntos de datos ilimitados que impregnan nuestro mundo, los sistemas de streaming han alcanzado por fin un nivel de madurez suficiente para su adopción generalizada. Con esta guía práctica, los ingenieros de datos, los científicos de datos y los desarrolladores aprenderán a trabajar con datos en flujo de forma conceptual e independiente de la plataforma.

Ampliado a partir de las populares entradas del blog de Tyler Akidau "Streaming 101" y "Streaming 102", este libro te lleva desde un nivel introductorio hasta una comprensión matizada del qué, dónde, cuándo y cómo procesar flujos de datos en tiempo real. También profundizarás en las marcas de agua y el procesamiento "exactamente una vez" con los coautores Slava Chernyak y Reuven Lax.

Explorarás:

  • Cómo se comparan los patrones de procesamiento de datos en flujo y por lotes
  • Los principios y conceptos básicos del procesamiento robusto de datos fuera de orden
  • Cómo las marcas de agua rastrean el progreso y la integridad en conjuntos de datos infinitos
  • Cómo las técnicas de procesamiento de datos exactamente una vez garantizan la corrección
  • Cómo los conceptos de flujos y tablas constituyen la base del procesamiento de datos por lotes y por flujos
  • Las motivaciones prácticas de un potente mecanismo de estado persistente, basadas en un ejemplo del mundo real.
  • Cómo las relaciones variables en el tiempo proporcionan un vínculo entre el procesamiento de flujos y el mundo de SQL y el álgebra relacional

Table of contents

  1. Prefacio O: ¿En qué te estás metiendo?
    1. Navegar por este libro
      1. Para llevar
    2. Convenciones utilizadas en este libro
    3. Recursos en línea
      1. Cifras
      2. Fragmentos de código
    4. Safari O'Reilly
    5. Cómo contactar con nosotros
    6. Agradecimientos
  2. I. El modelo de viga
  3. 1. Streaming 101
    1. Terminología: ¿Qué es el streaming?
      1. Sobre las limitaciones muy exageradas del streaming
      2. Tiempo del suceso frente a tiempo de procesamiento
    2. Patrones de procesamiento de datos
      1. Datos limitados
      2. Datos no limitados: Lote
      3. Datos sin límites: Streaming
    3. Resumen
  4. 2. El qué, dónde, cuándo y cómo del tratamiento de datos
    1. Mapa de carreteras
    2. Fundaciones por lotes: Qué y dónde
      1. Qué: Transformaciones
      2. Dónde: Ventana
    3. Streaming: Cuándo y cómo
      1. Cuando: Lo maravilloso de los desencadenantes es que ¡los desencadenantes son cosas maravillosas!
      2. Cuándo: Marcas de agua
      3. Cuándo: Temprano/Temprano/Tarde ¡Triggers FTW!
      4. Cuándo: Retrasos permitidos (es decir, Recogida de Basura)
      5. Cómo: Acumulación
    4. Resumen
  5. 3. Marcas de agua
    1. Definición
    2. Creación de marcas de agua en origen
      1. Creación perfecta de marcas de agua
      2. Creación heurística de marcas de agua
    3. Propagación de la marca de agua
      1. Comprender la propagación de la marca de agua
      2. Propagación de la marca de agua y marcas de tiempo de salida
      3. El difícil caso de las ventanas superpuestas
    4. Marcas de agua percentiles
    5. Marcas de agua en tiempo de procesamiento
    6. Casos prácticos
      1. Caso práctico: Marcas de agua en Google Cloud Dataflow
      2. Caso práctico: Marcas de agua en Apache Flink
      3. Caso práctico: Marcas de agua en origen para Google Cloud Pub/Sub
    7. Resumen
  6. 4. Ventana avanzada
    1. Cuándo/Dónde: Ventanas de tiempo de procesamiento
      1. Ventana de tiempo de evento
      2. Ventana de tiempo de procesamiento mediante activadores
      3. Ventana de tiempo de procesamiento mediante tiempo de entrada
    2. Dónde: Ventanas de la Sesión
    3. Dónde: Ventana personalizada
      1. Variaciones de las Ventanas Fijas
      2. Variaciones sobre las Ventanas de Sesión
      3. Una talla no sirve para todos
    4. Resumen
  7. 5. Exactamente una vez y efectos secundarios
    1. Por qué importa exactamente una vez
    2. Precisión frente a exhaustividad
      1. Efectos secundarios
      2. Definición del problema
    3. Asegurar Exactamente Una Vez en Aleatorio
    4. Abordar el determinismo
    5. Rendimiento
      1. Optimización gráfica
      2. Filtros Bloom
      3. Recogida de Basura
    6. Exactamente una vez en Fuentes
    7. Exactamente una vez en fregaderos
    8. Casos prácticos
      1. Ejemplo de fuente: Nube Pub/Sub
      2. Ejemplo de fregadero: Archivos
      3. Ejemplo de fregadero: Google BigQuery
    9. Otros sistemas
      1. Apache Spark Streaming
      2. Apache Flink
    10. Resumen
  8. II. Corrientes y tablas
  9. 6. Corrientes y tablas
    1. Fundamentos de la Corriente y la Mesa O: una Teoría Especial de la Relatividad de la Corriente y la Mesa
      1. Hacia una teoría general de la relatividad de la corriente y de la tabla
    2. Procesamiento por lotes frente a flujos y tablas
      1. Un análisis de flujos y tablas de MapReduce
      2. Conciliación con el tratamiento por lotes
    3. Qué, Dónde, Cuándo y Cómo en un Mundo de Arroyos y Tablas
      1. Qué: Transformaciones
      2. Dónde: Ventana
      3. Cuándo: Desencadena
      4. Cómo: Acumulación
      5. Una visión holística de los flujos y las tablas en el modelo Beam
    4. Una Teoría General de la Relatividad de la Corriente y de la Mesa
    5. Resumen
  10. 7. Los aspectos prácticos del Estado Persistente
    1. Motivación
      1. La inevitabilidad del fracaso
      2. Corrección y eficacia
    2. Estado implícito
      1. Agrupación en bruto
      2. Combinación incremental
    3. Estado Generalizado
      1. Caso práctico: Atribución de conversiones
      2. Atribución de conversiones con Apache Beam
    4. Resumen
  11. 8. Streaming SQL
    1. ¿Qué es Streaming SQL?
      1. Álgebra relacional
      2. Relaciones variables en el tiempo
      3. Arroyos y Tablas
    2. Mirando hacia atrás: Sesgos de la Corriente y de la Mesa
      1. El modelo del haz: Un enfoque basado en la corriente
      2. El modelo SQL: Un enfoque basado en tablas
    3. Mirando hacia el futuro: Hacia un SQL de flujo robusto
      1. Selección de arroyos y mesas
      2. Operadores temporales
    4. Resumen
  12. 9. Uniones por streaming
    1. Todas tus uniones pertenecen a Streaming
    2. Uniones sin ventanas
      1. EXTERIOR COMPLETO
      2. EXTERIOR IZQUIERDO
      3. EXTERIOR DERECHO
      4. INTERIOR
      5. ANTI
      6. SEMI
    3. Uniones en ventana
      1. Ventanas fijas
      2. Validez temporal
    4. Resumen
  13. 10. La evolución del tratamiento de datos a gran escala
    1. MapReduce
    2. Hadoop
    3. Canal
    4. Tormenta
    5. Chispa
    6. Rueda de molino
    7. Kafka
    8. Flujo de datos en la nube
    9. Flink
    10. Haz
    11. Resumen
  14. Índice

Product information

  • Title: Sistemas de streaming
  • Author(s): Tyler Akidau, Slava Chernyak, Reuven Lax
  • Release date: September 2024
  • Publisher(s): O'Reilly Media, Inc.
  • ISBN: 9781098188498