Kapitel 9. Aufbau von Datenpipelines

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Wenn über den Aufbau von Datenpipelines mit Apache Kafka gesprochen wird, sind meist mehrere Anwendungsfälle gemeint. Der erste ist der Aufbau einer Datenpipeline, bei der Apache Kafka einer der beiden Endpunkte ist - zum Beispiel, um Daten von Kafka zu S3 oder von MongoDB zu Kafka zu übertragen. Beim zweiten Anwendungsfall geht es darum, eine Pipeline zwischen zwei verschiedenen Systemen aufzubauen, wobei Kafka als Vermittler dient. Ein Beispiel hierfür ist die Übertragung von Daten von Twitter zu Elasticsearch, indem die Daten zuerst von Twitter zu Kafka und dann von Kafka zu Elasticsearch gesendet werden.

Als wir in Version 0.9 Kafka Connect zu Apache Kafka hinzufügten, sahen wir, dass Kafka in beiden Anwendungsfällen bei LinkedIn und anderen großen Organisationen eingesetzt wird. Wir stellten fest, dass es bei der Integration von Kafka in Datenpipelines bestimmte Herausforderungen gab, die jedes Unternehmen lösen musste, und beschlossen, Kafka APIs hinzuzufügen, die einige dieser Herausforderungen lösen, anstatt jedes Unternehmen zu zwingen, sie von Grund auf zu lösen.

Der wichtigste Nutzen von Kafka für Datenpipelines ist seine Fähigkeit, als sehr großer, zuverlässiger Puffer zwischen den verschiedenen Phasen der Pipeline zu dienen. Dadurch werden Datenproduzenten und -konsumenten innerhalb der Pipeline ...

Get Kafka: The Definitive Guide, 2. Auflage now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.