4장. 효과적인 데이터 파이프라인 설계
이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com
이 장에서는 Kafka Connect를 사용해 탄력적이고 효과적인 데이터 파이프라인을 구축하는 방법을 알아봅니다. 3장에서 소개한 구성 요소를 조립할 때 데이터 엔지니어와 아키텍트가 이해해야 하는 핵심 개념과 의사 결정 포인트에 대해 설명합니다.
이 장의 전반부에서는 파이프라인을 위한 커넥터 플러그인을 선택하는 방법을 살펴봅니다. 커넥터, 변환기, 그리고 선택적으로 몇 가지 변환 및 술어가 필요합니다. 커넥터를 평가하고 커뮤니티에서 사용할 수 있는 수백 개의 커넥터 중에서 프로덕션 요구 사항을 충족하는 커넥터를 식별하는 방법에 대해 설명합니다. 그런 다음 데이터가 파이프라인을 통과할 때 데이터를 모델링하는 방법과 사용 가능한 서식 지정 옵션에 대해 설명합니다.
이 장의 후반부에서는 Kafka Connect의 복원력 특성에 대해 중점적으로 설명합니다. 파이프라인을 구축하기 전에 사용 사례에 따라 필요한 시맨틱을 식별해야 합니다. 예를 들어, 모든 데이터가 전송되도록 보장해야 하는가, 아니면 처리량 증가를 위해 일부 데이터 손실을 감수해도 괜찮은가? 먼저 장애를 처리할 수 있는 견고한 환경인 Kafka Connect의 내부 작동 방식을 자세히 살펴봅니다. 그런 다음 싱크 및 소스 파이프라인이 달성할 수 있는 의미와 특정 사용 사례를 대상으로 사용할 수 있는 다양한 구성 옵션 및 절충안을 살펴봅니다.
커넥터 선택
Kafka Connect를 사용하는 데이터 파이프라인을 구축할 때는 먼저 어떤 커넥터를 설치할지 결정해야 합니다. Kafka는 매우 인기 있는 기술이기 때문에 선택할 수 있는 기존 커넥터가 많이 있습니다. 새로 만드는 것보다 기존 커넥터를 사용하는 것이 더 나은 경우가 많지만, 요구 사항을 충족하는 경우에만 가능합니다. 다음은 특정 커넥터를 파이프라인의 일부로 사용할지 여부를 선택할 때 고려해야 할 몇 가지 사항입니다:
-
파이프라인 방향(소스 또는 싱크)
-
라이선스 및 지원
-
커넥터 기능
파이프라인 방향
먼저 커넥터가 올바른 방향으로 데이터를 흐르고 있는지 확인합니다. Kafka로 데이터를 생성하는 소스 커넥터인가요, 아니면 Kafka에서 소비하는 싱크 커넥터인가요? 대부분의 커넥터는 이름에 이 세부 정보가 포함되어 있으며 일반적으로 설명서를 통해 명확하게 알 수 있습니다. 그렇지 않은 경우, Kafka Connect 환경에 커넥터를 설치하고 REST API를 사용하여 유형을 검색할 수 있습니다.
$curllocalhost:8083/connector-plugins[{"class":"org.apache.kafka.connect.mirror.MirrorCheckpointConnector","type":"source","version":"3.5.0"},{"class":"org.apache.kafka.connect.mirror.MirrorHeartbeatConnector" ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access