Skip to Content
데이터 엔지니어를 위한 97가지 조언
book

데이터 엔지니어를 위한 97가지 조언

by Tobias Macey, 임혜연(Lim Hye Yeon)
November 2023
Beginner to intermediate
344 pages
3h 47m
Korean
Gilbut
Content preview from 데이터 엔지니어를 위한 97가지 조언

82 분산 프로그래밍에서 중요한 개념 3가지

 

아디 폴락(Adi Polak)

많은 데이터 엔지니어가 ETL이나 ELT 작업을 위한 파이프라인을 만듭니다. 변환(T) 작업 중에는 컴퓨터 하나의 메모리에 맞는 데이터로 작업할 수 있습니다. 그렇지만 데이터는 종종 목표하는 바를 이루기 위해 분산 병렬 계산을 이용하는 프레임워크나 솔루션을 이용해야 하는 경우가 많습니다. 이런 요구에 맞추기 위해 많은 연구자가 아파치 스파크, 아파치 카산드라, 아파치 카프카, 텐서플로 등과 같은 알려진 프레임워크에 구현된 분산 프로그래밍 및 계산 모델을 개발했습니다. 지금부터 데이터 분석 및 분산 머신 러닝에 널리 사용되는 분산 프로그래밍 모델 3가지를 살펴보겠습니다.

 

 

¦ 맵리듀스 알고리즘 ¦

맵리듀스는 구글이 2004년에 개발한 분산 계산 알고리즘입니다. 개발자는 map 함수와 reduce 함수를 지정해야 합니다. map 함수는 키/값 쌍을 처리해서 중간 결과로 여러 개의 키/값 쌍을 생성하며, reduce 함수는 중간 결과에서 동일한 키를 가진 모든 값을 병합합니다. 이 방식은 데이터 분석에서의 분리-적용-결합split-apply-combine 전략을 확장한 것입니다.

실제로 모든 작업은 여러 개의 map 함수와 reduce 함수로 나뉩니다. 데이터는 여러 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

클라우드 엔지니어를 위한 97가지 조언

클라우드 엔지니어를 위한 97가지 조언

Emily Freeman, Nathen Harvey, 정기훈(Jung Ki Hun)
데브옵스 엔지니어를 위한 실전 관찰 가능성 엔지니어링

데브옵스 엔지니어를 위한 실전 관찰 가능성 엔지니어링

채리티 메이저, 리즈 퐁 존스, 조지 미란다

Publisher Resources

ISBN: 9791140706815