Skip to Content
Spark를 사용한 데이터 알고리즘
book

Spark를 사용한 데이터 알고리즘

by Mahmoud Parsian
May 2025
Beginner to intermediate
438 pages
6h 57m
Korean
O'Reilly Media, Inc.
Book available
Content preview from Spark를 사용한 데이터 알고리즘

서문

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

Spark는 대규모 데이터 분석의 사실상 표준이 되었습니다. 저는 9년 전 초창기부터 Spark를 사용하고 가르치면서 추출, 변환, 로드(ETL) 프로세스, 분산 알고리즘 개발, 대규모 데이터 분석에서 엄청난 개선을 보았습니다. 처음에는 Java와 함께 Spark를 사용하기 시작했지만, 코드가 꽤 안정적이긴 하지만 긴 코드를 작성해야 하기 때문에 가독성이 떨어질 수 있다는 것을 알게 되었습니다. 이 책에서는 코드가 짧고 가독성이 뛰어나며 유지 관리가 용이한 PySpark(Spark용 Python API)를 사용하기로 결정했는데, 그 이유는 Spark의 강력한 성능을 Python으로 표현하기가 더 쉽기 때문입니다. PySpark는 강력하지만 사용하기 쉬우며, 간단한 변환과 작업 세트를 통해 모든 ETL 또는 분산 알고리즘을 표현할 수 있습니다.

이 책을 쓴 이유

이 책은 PySpark를 사용한 데이터 분석 입문서입니다. 이 책은 소프트웨어 및 데이터 엔지니어가 가능한 가장 간단한 방법으로 데이터 문제를 해결할 수 있도록 돕기 위한 일련의 지침과 예제로 구성되어 있습니다. 아시다시피, 데이터 문제를 해결하는 방법에는 여러 가지가 있습니다. PySpark를 사용하면 복잡한 문제도 간단한 코드로 작성할 수 있습니다. 이 책에서 제가 표현하고자 한 모토는 다른 개발자가 솔루션을 재사용할 수 있도록 단순하게 유지하고 매개변수를 사용하는 것입니다. 저의 목표는 독자들에게 데이터에 대해 생각하고 데이터의 기원과 최종 의도된 형태를 이해하는 방법을 가르치고, 다양한 데이터 문제를 해결하기 위해 기본적인 데이터 변환 패턴을 사용하는 방법을 보여드리는 것입니다.

이 책의 대상

이 책을 효과적으로 사용하려면 조건부(if-then-else) 사용, 목록 반복, 함수 정의 및 호출 방법과 같은 Python 프로그래밍 언어의 기본 사항을 알고 있으면 도움이 될 것입니다. 그러나 다른 프로그래밍 언어(예: Java 또는 Scala)를 배웠고 Python을 모르는 경우에도 이 책에서 Spark와 PySpark에 대해 알맞게 소개했으므로 충분히 활용할 수 있을 것입니다.

이 책은 주로 Spark 엔진과 PySpark를 사용해 대량의 데이터를 분석하고 분산 알고리즘을 개발하고자 하는 사람들을 위한 책입니다. PySpark에서 ETL 작업을 수행하고 분산 알고리즘을 작성하는 방법을 보여주는 간단한 예제를 제공했습니다. 코드 예제는 잘라내어 붙여넣기만 하면 쉽게 작업을 완료할 수 있도록 작성되었습니다.

GitHub에서 제공하는 샘플 코드는 데이터 프로젝트를 시작하는 데 도움이 되는 훌륭한 리소스입니다.

이 책의 구성 방법

이 책은 세 부분으로 구성된 12개의 챕터로 구성되어 있습니다:

파트 1, "기본 사항"

처음 네 장에서는 Spark와 PySpark의 기초를 다루고 매퍼, 필터, 감속기 같은 데이터 변환을 소개합니다. ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

데이터 엔지니어를 위한 97가지 조언

데이터 엔지니어를 위한 97가지 조언

Tobias Macey, 임혜연(Lim Hye Yeon)
클라우드 엔지니어를 위한 97가지 조언

클라우드 엔지니어를 위한 97가지 조언

Emily Freeman, Nathen Harvey, 정기훈(Jung Ki Hun)
프로그래머의 길 멘토에게 묻다

프로그래머의 길 멘토에게 묻다

David Hoover, Adewale Oshineye, Kang Jung Bin

Publisher Resources

ISBN: 9798341655317Supplemental Content