November 2023
Beginner to intermediate
344 pages
3h 47m
Korean

제시 앤더슨(Jesse Anderson)
어떤 사람들은 아파치 스파크만 있으면 데이터 파이프라인1을 만들 수 있다고 주장합니다. 하지만 실제로 데이터 파이프라인을 생성하기 위해서는 다음 3가지의 일반적인 기술 유형을 구현하는 구성 요소가 필요합니다.
• 계산
• 스토리지
• 메시징
스파크만 있으면 데이터 파이프라인을 만들 수 있다는 오해를 바로잡아야 빅데이터 프로젝트를 성공시키거나 빅데이터를 학습할 수 있습니다. 스파크는 데이터 파이프라인을 만드는 데 필요한 대규모 빅데이터 생태계의 일부일 뿐입니다. 간단히 다음과 같이 정리할 수 있습니다.
데이터 엔지니어링 = 계산 + 스토리지 + 메시징 + 코드 + 아키텍처 + 도메인 지식 + 사용 사례
¦ 배치 및 실시간 시스템 ¦
배치 데이터 파이프라인에서는 보편적으로 2가지 핵심 문제를 해결해야 합니다. 하나는 계산이고, 다른 하나는 데이터 스토리지입니다. 배치 계산 처리에는 스파크가 적합하지만, 적합한 스토리지 솔루션을 찾는 것은 어려울 수 있습니다. 더 정확하게 말하자면, 사용 사례에 맞는 다양하고 최적화된 스토리지 기술을 알아보는 것이 어려울 수 있습니다.
¦ 계산 컴포넌트 ¦
계산computation이란 데이터가 처리되는 ...