Capítulo 9. Construir canalizaciones de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Cuando la gente habla de construir canalizaciones de datos utilizando Apache Kafka, normalmente se refiere a un par de casos de uso. El primero es construir una canalización de datos en la que Apache Kafka es uno de los dos puntos finales; por ejemplo, obtener datos de Kafka a S3 o de MongoDB a Kafka. El segundo caso de uso implica construir una canalización entre dos sistemas diferentes, pero utilizando Kafka como intermediario. Un ejemplo de esto es obtener datos de Twitter a Elasticsearch enviando los datos primero de Twitter a Kafka y luego de Kafka a Elasticsearch.

Cuando añadimos Kafka Connect a Apache Kafka en la versión 0.9, fue después de ver cómo se utilizaba Kafka en ambos casos de uso en LinkedIn y otras grandes organizaciones. Nos dimos cuenta de que había retos específicos en la integración de Kafka en canalizaciones de datos que cada organización tenía que resolver, y decidimos añadir API a Kafka que resolvieran algunos de esos retos en lugar de obligar a cada organización a resolverlos desde cero.

El principal valor que Kafka aporta a las canalizaciones de datos es su capacidad para servir como un búfer muy grande y fiable entre las distintas etapas de la canalización. Esto desacopla eficazmente a productores y consumidores de datos dentro de la canalización y permite utilizar los mismos datos de origen ...

Get Kafka: La Guía Definitiva, 2ª Edición now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.