Skip to Content
Spark를 사용한 데이터 알고리즘
book

Spark를 사용한 데이터 알고리즘

by Mahmoud Parsian
May 2025
Beginner to intermediate
438 pages
6h 57m
Korean
O'Reilly Media, Inc.
Book available
Content preview from Spark를 사용한 데이터 알고리즘

머리말

10년 전 Apache Spark 프로젝트를 시작했을 때 저의 주요 목표 중 하나는 다양한 사용자가 병렬 알고리즘을 더 쉽게 구현할 수 있도록 하는 것이었습니다. 대규모 데이터에 작용하는 새로운 알고리즘은 컴퓨팅의 모든 영역에 큰 영향을 미치고 있으며, 저는 개발자들이 분산 시스템을 처음부터 구축하지 않고도 이러한 알고리즘을 구현하고 그 성능을 추론할 수 있도록 돕고 싶었습니다.

따라서 저는 데이터 알고리즘에 관한 Mahmoud Parsian 박사의 새 책이 Spark와 함께 출간되어 매우 기쁩니다. 파시안 박사는 일루미나의 빅데이터 팀 리더로서 생물정보학을 위한 새로운 알고리즘을 개발하는 등 대규모 데이터 병렬 알고리즘에 대한 광범위한 연구와 실무 경험을 보유하고 있습니다. 이 책에서 그는 Python API인 PySpark를 통해 Spark를 소개하고, Spark의 분산 컴퓨팅 기본 요소를 사용하여 다양하고 유용한 알고리즘을 효율적으로 구현하는 방법을 보여줍니다. 또한 기본 Spark 엔진의 작동 방식과 데이터 파티셔닝 제어와 같은 기술을 통해 알고리즘을 최적화하는 방법도 설명합니다. 이 책은 기존 알고리즘을 확장 가능한 방식으로 구현하고자 하는 독자와 Spark를 사용해 새로운 맞춤형 알고리즘을 개발하는 독자 모두에게 훌륭한 자료가 될 것입니다.

또한 파시안 박사가 논의하는 모든 알고리즘에 대해 가능한 한 실제 문제를 사용하여 작업 코드 예제를 포함했다는 점도 매우 기쁩니다. 이러한 예제는 유사한 계산을 구현하려는 독자들에게 훌륭한 출발점이 될 것입니다. 이러한 알고리즘을 직접 사용하든 Spark를 사용하여 자신만의 맞춤형 알고리즘을 구축하든, 이 책을 오픈 소스 엔진과 그 내부 작동 방식, 컴퓨팅 전반에 걸쳐 광범위한 영향을 미치고 있는 최신 병렬 알고리즘에 대한 입문서로 활용하시길 바랍니다.

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

데이터 엔지니어를 위한 97가지 조언

데이터 엔지니어를 위한 97가지 조언

Tobias Macey, 임혜연(Lim Hye Yeon)
클라우드 엔지니어를 위한 97가지 조언

클라우드 엔지니어를 위한 97가지 조언

Emily Freeman, Nathen Harvey, 정기훈(Jung Ki Hun)
프로그래머의 길 멘토에게 묻다

프로그래머의 길 멘토에게 묻다

David Hoover, Adewale Oshineye, Kang Jung Bin

Publisher Resources

ISBN: 9798341655317Supplemental Content