Skip to Content
Spark를 사용한 데이터 알고리즘
book

Spark를 사용한 데이터 알고리즘

by Mahmoud Parsian
May 2025
Beginner to intermediate
438 pages
6h 57m
Korean
O'Reilly Media, Inc.
Book available
Content preview from Spark를 사용한 데이터 알고리즘

9장. 클래식 데이터 디자인 패턴

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

이 장에서는 대부분의 빅 데이터 솔루션에 사용되는 가장 기본적이고 고전적인 데이터 디자인 패턴에 대해 설명합니다. 이러한 디자인 패턴은 단순한 디자인 패턴이지만 많은 일반적인 데이터 문제를 해결하는 데 유용하며, 이 책의 예제에서 많은 디자인 패턴을 사용했습니다. 이 장에서는 다음 디자인 패턴의 PySpark 구현을 소개합니다:

  1. 입력-맵-출력

  2. 입력-필터-출력

  3. 입력-맵-축소-출력

  4. 입력-다중-맵-축소-출력

  5. 입력-맵-결합기-축소-출력

  6. 입력-맵 파티션-축소-출력

  7. 입력-반전-인덱스-패턴-출력

하지만 시작하기 전에 "디자인 패턴"이 무엇을 의미하는지에 대해 먼저 말씀드리고 싶습니다. 컴퓨터 과학과 소프트웨어 공학에서 디자인 패턴은 일반적으로 발생하는 문제가 주어졌을 때 그 문제에 대한 재사용 가능한 해결책입니다. 디자인 패턴은 문제를 해결하는 방법에 대한 템플릿 또는 모범 사례이지 코드로 바로 변환할 수 있는 완성된 디자인이 아닙니다. 이 장에서 소개하는 패턴은 다양한 데이터 분석 작업을 처리할 수 있는 능력을 갖추게 해줍니다.

참고

이 장에서 설명하는 데이터 설계 패턴은 기본 패턴입니다. 요구 사항에 따라 자신만의 패턴을 만들 수 있습니다. 추가 예제는"MapReduce: 대규모 클러스터에서의 간소화된 데이터 처리"를 참조하세요(Jeffrey Dean과 Sanjay Ghemawat 작성).

입력-맵-출력

입력-맵-출력은 데이터 분석을 위한 가장 간단한 디자인 패턴으로, 그림 9-1에서 볼 수 있듯이 파일 세트에서 입력을 읽은 다음 각 레코드에 일련의 함수를 적용하고 마지막으로 원하는 출력을 생성합니다. 매퍼가 입력에서 생성할 수 있는 것에는 제한이 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

데이터 엔지니어를 위한 97가지 조언

데이터 엔지니어를 위한 97가지 조언

Tobias Macey, 임혜연(Lim Hye Yeon)
클라우드 엔지니어를 위한 97가지 조언

클라우드 엔지니어를 위한 97가지 조언

Emily Freeman, Nathen Harvey, 정기훈(Jung Ki Hun)
프로그래머의 길 멘토에게 묻다

프로그래머의 길 멘토에게 묻다

David Hoover, Adewale Oshineye, Kang Jung Bin

Publisher Resources

ISBN: 9798341655317Supplemental Content