book

Procesamiento de flujos con Apache Flink

Name: Procesamiento de flujos con Apache Flink
ISBN: 9781098185671

by Fabian Hueske, Vasiliki Kalavri

September 2024

Intermediate to advanced

310 pages

9h 26m

Spanish

O'Reilly Media, Inc.

Read now

Unlock full access

Prefacio
Lo que aprenderás en este libroConvenciones utilizadas en este libroUtilizar ejemplos de códigoAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientos
1. Introducción al Procesamiento de Secuencias con Estado
Infraestructuras de datos tradicionalesProcesamiento transaccionalProcesamiento analíticoProcesamiento de flujos con estadoAplicaciones basadas en eventosCanalizaciones de datosAnálisis de streamingLa evolución del procesamiento de flujos de código abiertoUn poco de historiaUn vistazo rápido a FlinkEjecutar tu primera aplicación FlinkResumen
2. Fundamentos del procesamiento de flujos
Introducción a la programación de flujo de datosGráficos de flujo de datosParalelismo de datos y paralelismo de tareasEstrategias de intercambio de datosProcesar flujos en paraleloLatencia y rendimientoOperaciones con flujos de datosSemántica del tiempo¿Qué significa un minuto en el procesamiento de flujos?Tiempo de procesamientoHora del eventoMarcas de aguaTiempo de procesamiento frente a tiempo de eventoModelos de estado y coherenciaFallos en las tareasGarantía de resultadosResumen
3. La arquitectura de Apache Flink
Arquitectura del sistemaComponentes de una configuración FlinkImplementación de aplicacionesEjecución de tareasConfiguración de alta disponibilidadTransferencia de datos en FlinkControl de flujo basado en créditosEncadenamiento de tareasProcesamiento en tiempo realMarcas de tiempoMarcas de aguaPropagación de la Marca de Agua y Tiempo del SucesoAsignación de marca de tiempo y generación de marca de aguaGestión estatalEstado del operadorEstado de llaveBackends estatalesEscalado de Operadores con EstadoPuntos de control, puntos de guardado y recuperación del estadoPuntos de control coherentesRecuperación de un punto de control coherenteAlgoritmo de Checkpointing de FlinkImplicaciones del Checkpointing en el rendimientoPuntos de guardadoResumen
4. Configurar un entorno de desarrollo para Apache Flink
Software necesarioEjecutar y depurar aplicaciones Flink en un IDEImportar los Ejemplos del Libro en un IDEEjecutar aplicaciones Flink en un IDEDepurar aplicaciones Flink en un IDECrear un proyecto Flink MavenResumen
5. La API DataStream (v1.7)
¡Hola, Flink!Configurar el entorno de ejecuciónLeer un flujo de entradaAplicar transformacionesImprimir el resultadoEjecutaTransformacionesTransformaciones básicasTransformaciones KeyedStreamTransformaciones MultistreamTransformaciones de la distribuciónAjustar el paralelismoTiposTipos de datos admitidosCrear información sobre tipos de datosProporcionar explícitamente información sobre el tipoDefinir claves y referenciar camposPuestos de campoExpresiones de campoSelectores de teclasImplementación de funcionesClases de funcionesFunciones lambdaFunciones ricasIncluir dependencias externas y de FlinkResumen
6. Operadores temporales y de ventana
Configurar las características temporalesAsignar marcas de tiempo y generar marcas de aguaMarcas de agua, latencia e integridadFunciones del procesoTimerService y temporizadoresEmisión a salidas lateralesCoProcesoFunciónOperarios de VentanaDefinir operadores de ventanaAsignadores de ventanas incorporadosAplicar funciones en WindowsPersonalizar los mandos de las ventanasUnirse a las corrientes a tiempoUnión por intervalosUnión de ventanasTratamiento de datos atrasadosAbandonar eventos tardíosRedirigir eventos tardíosActualizar resultados incluyendo eventos tardíosResumen
7. Operadores con estado y aplicaciones
Implementación de funciones con estadoDeclarar el Estado Clave en el RuntimeContextImplementación del estado de lista de operadores con la interfaz ListCheckpointedUtilizar el estado de transmisión ConectadoUso de la interfaz CheckpointedFunctionRecibir notificaciones sobre los puntos de control completadosActivar la recuperación de fallos en aplicaciones con estadoGarantizar la Mantenibilidad de las Aplicaciones con EstadoEspecificar identificadores únicos de operadorDefinición del Paralelismo Máximo de los Operadores de Estado con ClaveRendimiento y robustez de las aplicaciones con estadoElegir un backend estatalElegir una primitiva de estadoEvitar las fugas de EstadoEvolución de las aplicaciones con estadoActualizar una aplicación sin modificar el estado existenteEliminar el estado de una aplicaciónModificar el estado de un operadorEstado consultableArquitectura y habilitación del estado consultableExponer el estado consultableConsulta de estado desde aplicaciones externasResumen
8. Lectura y escritura en sistemas externos
Garantías de coherencia de la aplicaciónEscritos IdempotentesEscrituras transaccionalesConectores suministradosConector de origen de Apache KafkaConector Apache Kafka SinkConector de origen del sistema de archivosConector del sumidero del sistema de archivosConector Apache Cassandra SinkImplementar una función fuente personalizadaFunciones de fuente reajustableFunciones de origen, marcas de tiempo y marcas de aguaImplementar una función de fregadero personalizadaConectores de fregadero idempotentesConectores de sumideros transaccionalesAcceso asíncrono a sistemas externosResumen
9. Configuración de Flink para aplicaciones de streaming
Modos de ImplementaciónClúster independienteDockerApache Hadoop YARNKubernetesConfiguraciones de alta disponibilidadConfiguración autónoma de HAConfiguración HA YARNConfiguración de HA KubernetesIntegración con componentes HadoopConfiguración del sistema de archivosConfiguración del sistemaJava y la carga de clasesCPUMemoria principal y búferes de redAlmacenamiento en discoPuntos de control y backends de estadoSeguridadResumen

10. Funcionamiento de aplicaciones Flink y Streaming
Ejecutar y gestionar aplicaciones de streamingPuntos de guardadoGestionar aplicaciones con el cliente de línea de comandosGestionar aplicaciones con la API RESTAgrupación e Implementación de Aplicaciones en ContenedoresControl de la programación de tareasControlar el encadenamiento de tareasDefinir grupos de franjas horarias compartidasAjuste del punto de control y la recuperaciónConfigurar el punto de controlConfigurar backends de estadoConfigurar la recuperaciónMonitoreo de clusters y aplicaciones FlinkInterfaz web de FlinkSistema métricoLatencia del monitoreoConfigurar el comportamiento del registroResumen
11. ¿Adónde ir a partir de ahora?
El resto del ecosistema FlinkLa API DataSet para el procesamiento por lotesAPI de tablas y SQL para el análisis relacionalFlinkCEP para el Procesamiento de Eventos Complejos y la Comparación de PatronesGelly para el procesamiento de gráficosUna comunidad acogedora
Índice

Overview

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Empieza a utilizar Apache Flink, el framework de código abierto que impulsa algunas de las aplicaciones de procesamiento de flujos más grandes del mundo. Con este práctico libro, explorarás los conceptos fundamentales del procesamiento paralelo de flujos y descubrirás en qué se diferencia esta tecnología del procesamiento tradicional de datos por lotes.

Fabian Hueske y Vasia Kalavri, committers de Apache Flink desde hace mucho tiempo, te muestran cómo implementar aplicaciones de flujo escalables con la API DataStream de Flink y cómo ejecutar y mantener continuamente estas aplicaciones en entornos operativos. El procesamiento en flujo es ideal para muchos casos de uso, como ETL de baja latencia, análisis en flujo y cuadros de mando en tiempo real, así como detección de fraudes, detección de anomalías y alertas. Puedes procesar datos continuos de cualquier tipo, incluidas interacciones de usuarios, transacciones financieras y datos IoT, en cuanto los generes.

Aprende conceptos y retos del procesamiento distribuido de flujos con estado
Explora la arquitectura del sistema Flink, incluyendo su modo de procesamiento en tiempo de eventos y su modelo de tolerancia a fallos
Comprender los fundamentos y los bloques de construcción de la API DataStream, incluidos sus operadores basados en el tiempo y en el estado
Lee datos de sistemas externos y escribe datos en ellos con coherencia exactamente una vez
Despliega y configura clusters Flink
Operar aplicaciones de streaming en ejecución continua

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781098185671

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills