Capítulo 9. Criar pipelines de dados
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Quando as pessoas discutem a criação de pipelines de dados usando o Apache Kafka, geralmente estão se referindo a alguns casos de uso. O primeiro é a construção de um pipeline de dados em que o Apache Kafka é um dos dois pontos finais - por exemplo, obter dados do Kafka para o S3 ou obter dados do MongoDB para o Kafka. O segundo caso de uso envolve a construção de um pipeline entre dois sistemas diferentes, mas usando o Kafka como intermediário. Um exemplo disso é obter dados do Twitter para o Elasticsearch, enviando os dados primeiro do Twitter para o Kafka e depois do Kafka para o Elasticsearch.
Quando adicionámos o Kafka Connect ao Apache Kafka na versão 0.9, foi depois de vermos o Kafka ser utilizado em ambos os casos de utilização no LinkedIn e noutras grandes organizações. Percebemos que havia desafios específicos na integração do Kafka em pipelines de dados que cada organização tinha de resolver e decidimos adicionar APIs ao Kafka que resolvessem alguns desses desafios, em vez de forçar cada organização a descobri-los do zero.
O principal valor que o Kafka fornece aos pipelines de dados é a sua capacidade de servir como um buffer muito grande e fiável entre várias fases do pipeline. Isso efetivamente desacopla produtores e consumidores de dados dentro do pipeline e permite o uso dos mesmos dados da fonte em vários aplicativos ...