Skip to Content
Spark를 사용한 데이터 알고리즘
book

Spark를 사용한 데이터 알고리즘

by Mahmoud Parsian
May 2025
Beginner to intermediate
438 pages
6h 57m
Korean
O'Reilly Media, Inc.
Book available
Content preview from Spark를 사용한 데이터 알고리즘

3장. 매퍼 변환

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

이 장에서는 간단한 작업 예제를 통해 가장 일반적인 Spark 매퍼 변환을 소개합니다. 변환에 대한 명확한 이해 없이는 데이터 문제를 해결하기 위해 적절하고 의미 있는 방식으로 변환을 사용하기가 어렵습니다. 여기서는 RDD 데이터 추상화의 맥락에서 매퍼 변환을 살펴보겠습니다. 매퍼는 소스 RDD의 모든 요소를 처리하여 대상 RDD를 생성하는 데 사용되는 함수입니다. 예를 들어, 매퍼는 String 레코드를 튜플, (키, 값) 쌍 또는 원하는 출력으로 변환할 수 있습니다. 비공식적으로 매퍼가 소스RDD[V] 를 대상 RDD[T] 으로 변환한다고 말할 수 있으며, 여기서VT 는 각각 소스 및 대상 RDD의 데이터 유형입니다. 데이터프레임에도 매퍼 변환을 적용할 수 있는데, 모든 행에 데이터프레임 함수( select() 및 UDF 사용)를 적용하거나 데이터프레임(행과 열로 구성된 테이블)을 RDD로 변환한 다음 Spark의 매퍼변환을 사용하는 방법이 있습니다.

데이터 추상화 및 매퍼

Spark에는 많은 변환과 작업이 있지만, 이 장에서는 Spark 애플리케이션 구축에 가장 자주 사용되는 변환에 대해 설명합니다. Spark의 간단하고 강력한 매퍼 변환을 사용하면 간단한 방법으로 ETL 작업을 수행할 수 있습니다.

앞서 언급했듯이 RDD는 병렬로 작업할 수 있는 불변의 분할된 요소 모음으로, 비정형 및 반정형 데이터에 적합한 Spark의 중요한 데이터 추상화입니다. RDD는 Spark의 다른 주요 데이터 추상화인 DataFrame보다 낮은 수준의 API입니다( 그림 3-1 참조). RDD에서 각 요소는 RDD[T] 으로 표시되는 데이터 유형 T 을 가질 수 있습니다.

daws 0301
그림 3-1. Spark의 데이터 추상화

모든 데이터 솔루션에서 매퍼 변환을 사용하여 한 형식의 데이터를 원하는 다른 형식의 데이터로 변환합니다(예: 레코드( String)를 (키, 값) 형식으로 변환하는 것). Spark는 RDD 변환에 많이 사용되는 5가지 중요한 매퍼 변환을 제공하며, 표 3-1에 요약되어 있습니다.

표 3-1. 매퍼 변환
변환 관계 유형 설명

map(f)

1대 1

이 RDD의 각 요소에 함수(f())를 적용하여 새 RDD를 반환합니다. 소스 및 대상 RDD의 요소 수는 동일합니다(소스 RDD[V] 의 각 요소를 결과 대상 RDD[T] 의 하나의 요소로 변환).

mapValues(f)

1대 1

키를 변경하지 않고 (키, 값) 쌍 RDD의 각 값을 map(f) 함수를 통해 전달하면 원본 RDD의 분할도 그대로 유지됩니다. ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

데이터 엔지니어를 위한 97가지 조언

데이터 엔지니어를 위한 97가지 조언

Tobias Macey, 임혜연(Lim Hye Yeon)
클라우드 엔지니어를 위한 97가지 조언

클라우드 엔지니어를 위한 97가지 조언

Emily Freeman, Nathen Harvey, 정기훈(Jung Ki Hun)
프로그래머의 길 멘토에게 묻다

프로그래머의 길 멘토에게 묻다

David Hoover, Adewale Oshineye, Kang Jung Bin

Publisher Resources

ISBN: 9798341655317Supplemental Content