Capítulo 9. Construir canalizaciones de datos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Cuando la gente habla de construir canalizaciones de datos utilizando Apache Kafka, normalmente se refiere a un par de casos de uso. El primero es construir una canalización de datos en la que Apache Kafka es uno de los dos puntos finales; por ejemplo, obtener datos de Kafka a S3 o de MongoDB a Kafka. El segundo caso de uso implica construir una canalización entre dos sistemas diferentes, pero utilizando Kafka como intermediario. Un ejemplo de esto es obtener datos de Twitter a Elasticsearch enviando los datos primero de Twitter a Kafka y luego de Kafka a Elasticsearch.
Cuando añadimos Kafka Connect a Apache Kafka en la versión 0.9, fue después de ver cómo se utilizaba Kafka en ambos casos de uso en LinkedIn y otras grandes organizaciones. Nos dimos cuenta de que había retos específicos en la integración de Kafka en canalizaciones de datos que cada organización tenía que resolver, y decidimos añadir API a Kafka que resolvieran algunos de esos retos en lugar de obligar a cada organización a resolverlos desde cero.
El principal valor que Kafka aporta a las canalizaciones de datos es su capacidad para servir como un búfer muy grande y fiable entre las distintas etapas de la canalización. Esto desacopla eficazmente a productores y consumidores de datos dentro de la canalización y permite utilizar los mismos datos de origen ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access