Skip to Content
Spark를 사용한 데이터 알고리즘
book

Spark를 사용한 데이터 알고리즘

by Mahmoud Parsian
May 2025
Beginner to intermediate
438 pages
6h 57m
Korean
O'Reilly Media, Inc.

Overview

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

Apache Spark의 속도, 사용 편의성, 정교한 분석 기능, 다중 언어 지원 덕분에 이 클러스터 컴퓨팅 프레임워크에 대한 실용적인 지식이 데이터 엔지니어와 데이터 과학자에게 필수적인 기술이 되었습니다. 이 실습 가이드를 통해 Spark를 처음 접하는 사람도 PySpark를 사용하여 실용적인 알고리즘과 예제를 배울 수 있습니다.

각 장에서 저자 Mahmoud Parsian은 일련의 Spark 변환 및 알고리즘을 사용하여 데이터 문제를 해결하는 방법을 보여줍니다. ETL, 디자인 패턴, 기계 학습 알고리즘, 데이터 분할 및 유전체 분석과 관련된 문제를 해결하는 방법을 배울 수 있습니다. 각 자세한 레시피에는 PySpark 드라이버 및 셸 스크립트를 사용하는 PySpark 알고리즘이 포함되어 있습니다.

이 책을 통해 다음과 같은 것을 배울 수 있습니다:

  • 최적화된 솔루션을 위해 Spark 변환을 선택하는 방법
  • reduceByKey(), combineByKey(), mapPartitions() 등 강력한 변환 및 축소 기능을 탐구합니다
  • 최적화된 쿼리를 위한 데이터 분할 이해
  • PySpark 디자인 패턴을 사용하여 모델을 구축하고 적용합니다.
  • 그래프 데이터에 모티프 탐색 알고리즘 적용
  • GraphFrames API를 사용하여 그래프 데이터 분석
  • PySpark 알고리즘을 임상 및 유전체학 데이터에 적용합니다.
  • 머신러닝 알고리즘에서 특징 공학의 사용 및 적용 방법 학습
  • 실용적이고 실용적인 데이터 설계 패턴 이해 및 적용
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

데이터 엔지니어를 위한 97가지 조언

데이터 엔지니어를 위한 97가지 조언

Tobias Macey, 임혜연(Lim Hye Yeon)
프로그래머의 길 멘토에게 묻다

프로그래머의 길 멘토에게 묻다

David Hoover, Adewale Oshineye, Kang Jung Bin

Publisher Resources

ISBN: 9798341655317