Capitolo 9. Costruire pipeline di dati
Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com
Quando si parla di costruire pipeline di dati con Apache Kafka, di solito ci si riferisce a un paio di casi d'uso. Il primo è la creazione di una pipeline di dati in cui Apache Kafka è uno dei due punti finali, ad esempio per trasferire i dati da Kafka a S3 o per trasferire i dati da MongoDB a Kafka. Il secondo caso d'uso prevede la creazione di una pipeline tra due sistemi diversi ma utilizzando Kafka come intermediario. Un esempio è quello di ottenere dati da Twitter a Elasticsearch inviando i dati prima da Twitter a Kafka e poi da Kafka a Elasticsearch.
Quando abbiamo aggiunto Kafka Connect ad Apache Kafka nella versione 0.9, è stato dopo aver visto Kafka utilizzato in entrambi i casi d'uso presso LinkedIn e altre grandi organizzazioni. Abbiamo notato che l'integrazione di Kafka nelle pipeline di dati presentava sfide specifiche che ogni organizzazione doveva risolvere e abbiamo deciso di aggiungere a Kafka delle API che risolvessero alcune di queste sfide piuttosto che costringere ogni organizzazione a risolverle da zero.
Il valore principale che Kafka fornisce alle pipeline di dati è la sua capacità di fungere da buffer affidabile e di grandi dimensioni tra le varie fasi della pipeline. In questo modo disaccoppia efficacemente i produttori e i consumatori di dati all'interno della pipeline e permette ...