book

Spark 학습, 제 2판

by Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee

May 2025

Beginner to intermediate

400 pages

6h 48m

Korean

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

이 책의 대상책 구성 방법코드 예제 사용 방법사용 소프트웨어 및 구성이 책에서 사용된 규칙코드 예제 사용오라일리 온라인 학습문의 방법감사
Spark의 탄생Google의 빅 데이터 및 분산 컴퓨팅Yahoo!AMPLab에서의 Spark의 초기 시절Apache Spark란 무엇인가요?속도사용 편의성모듈화확장성통합 분석통합 스택으로서의 Apache Spark 구성 요소Apache Spark의 분산 실행개발자의 경험누가, 무엇을 위해 Spark를 사용하나요?커뮤니티 채택 및 확장
1단계: Apache Spark 다운로드하기Spark의 디렉토리 및 파일2단계: Scala 또는 PySpark 셸 사용하기로컬 머신 사용3단계: Spark 애플리케이션 개념 이해하기Spark 애플리케이션 및 SparkSessionSpark 채용 정보Spark 단계Spark 작업변환, 작업 및 지연 평가좁고 넓은 변환Spark UI첫 번째 독립형 애플리케이션쿠키 몬스터를 위한 M&M 세기Scala에서 독립 실행형 애플리케이션 구축하기요약
Spark: RDD의 밑바탕에는 무엇이 있을까요?Structuring Spark주요 장점 및 이점데이터프레임 APISpark의 기본 데이터 유형Spark의 구조화되고 복잡한 데이터 유형스키마 및 데이터프레임 만들기열 및 표현식행일반적인 데이터 프레임 작업엔드투엔드 데이터프레임 예제데이터 세트 API유형화된 개체, 유형화되지 않은 개체 및 일반 행데이터 집합 만들기데이터 집합 작업엔드투엔드 데이터 세트 예제데이터프레임과 데이터세트 비교RDD 사용 시기Spark SQL 및 기본 엔진카탈리스트 옵티마이저요약
Spark 애플리케이션에서 Spark SQL 사용기본 쿼리 예제SQL 테이블 및 뷰관리형 테이블과 비관리형 테이블SQL 데이터베이스 및 테이블 만들기뷰 만들기메타데이터 보기SQL 테이블 캐싱데이터프레임으로 테이블 읽기데이터 프레임 및 SQL 테이블용 데이터 원본데이터프레임리더데이터프레임라이터마루JSONCSVAvroORC이미지바이너리 파일요약
Spark SQL 및 Apache Hive사용자 정의 기능Spark SQL 셸, Beeline 및 Tableau로 쿼리하기Spark SQL 셸 사용Beeline과 함께 작업하기Tableau로 작업하기외부 데이터 소스JDBC 및 SQL 데이터베이스PostgreSQLMySQLAzure Cosmos DBMS SQL Server기타 외부 소스DataFrames 및 Spark SQL의 고차 함수옵션 1: 폭발 및 수집옵션 2: 사용자 정의 기능복잡한 데이터 유형을 위한 내장 함수상위 주문 기능일반적인 데이터 프레임 및 Spark SQL 작업노조조인Windows수정 사항요약
Java 및 Scala용 단일 API데이터 집합용 Scala Case 클래스 및 JavaBean데이터 집합으로 작업하기샘플 데이터 만들기샘플 데이터 변환데이터세트 및 데이터프레임의 메모리 관리데이터 세트 인코더Spark의 내부 형식과 Java 객체 형식 비교직렬화 및 역직렬화(SerDe)데이터 세트 사용 비용비용 절감을 위한 전략요약
효율성을 위한 Spark 최적화 및 튜닝Apache Spark 구성 보기 및 설정하기대규모 워크로드를 위한 Spark 확장데이터 캐싱 및 지속성데이터프레임.캐시()DataFrame.persist()캐시 및 보존 시기캐시 및 지속을 하지 않는 경우Spark의 가족 합류브로드캐스트 해시 조인셔플 정렬 병합 조인Spark UI 살펴보기Spark UI 탭을 통한 여정요약
Apache Spark 스트림 처리 엔진의 진화마이크로 배치 스트림 처리의 도래Spark 스트리밍(DStreams)에서 얻은 교훈구조화된 스트리밍의 철학구조화된 스트리밍의 프로그래밍 모델구조화된 스트리밍 쿼리의 기본 사항스트리밍 쿼리를 정의하는 5단계활성 스트리밍 쿼리의 내부 모습정확한 1회 보장을 통한 장애 복구활성 쿼리 모니터링스트리밍 데이터 소스 및 싱크파일Apache Kafka사용자 지정 스트리밍 소스 및 싱크데이터 변환증분 실행 및 스트리밍 상태무국적자 변환상태 저장 변환스테이트풀 스트리밍 집계시간을 기준으로 하지 않는 집계이벤트 시간 Windows를 사용한 집계스트리밍 조인스트림 정적 조인스트림-스트림 조인임의의 상태 저장 연산맵그룹위드스테이트()로 임의의 상태 저장소 연산 모델링하기타임아웃을 사용하여 비활성 그룹 관리하기플랫맵그룹위드스테이트()를 사용한 일반화성능 튜닝요약

최적의 스토리지 솔루션의 중요성데이터베이스데이터베이스에 대한 간략한 소개Apache Spark를 사용하여 데이터베이스에서 읽기 및 쓰기데이터베이스의 한계데이터 레이크데이터 레이크에 대한 간략한 소개Apache Spark를 사용하여 데이터 레이크에서 읽기 및 쓰기데이터 레이크의 한계레이크하우스: 스토리지 솔루션 진화의 다음 단계: 레이크하우스Apache HudiApache 빙산Delta LakeApache Spark와 Delta Lake로 레이크하우스 만들기Delta Lake로 Apache Spark 구성하기Delta Lake 테이블에 데이터 로드하기Delta Lake 테이블에 데이터 스트림 로드하기쓰기 시 스키마 적용으로 데이터 손상 방지변화하는 데이터를 수용하기 위한 진화하는 스키마기존 데이터 변환작업 이력을 통한 데이터 변경 사항 감사시간 이동으로 테이블의 이전 스냅샷 쿼리하기요약
머신러닝이란 무엇인가요?지도 학습비지도 학습왜 머신 러닝에 Spark를 사용해야 할까요?머신 러닝 파이프라인 설계데이터 수집 및 탐색학습 및 테스트 데이터 세트 생성트랜스포머로 기능 준비하기선형 회귀 이해추정기를 사용하여 모델 구축파이프라인 만들기모델 평가모델 저장 및 로드하이퍼파라미터 조정트리 기반 모델K-폴드 교차 검증파이프라인 최적화요약
모델 관리MLflowMLlib를 사용한 모델 배포 옵션배치스트리밍실시간 추론을 위한 모델 내보내기 패턴비 MLlib 모델에 Spark 활용하기판다 UDF분산 하이퍼파라미터 튜닝을 위한 Spark요약
Spark Core 및 Spark SQL동적 파티션 가지치기적응형 쿼리 실행SQL 조인 힌트카탈로그 플러그인 API 및 DataSourceV2가속기 인식 스케줄러구조화된 스트리밍PySpark, Pandas UDF 및 Pandas 함수 APIPython 유형 힌트로 새롭게 디자인된 Pandas UDF판다 UDF의 이터레이터 지원새로운 판다 함수 API변경된 기능지원 및 사용 중단 언어데이터프레임 및 데이터세트 API 변경 사항DataFrame 및 SQL 설명 명령어요약

Overview

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

데이터는 점점 더 커지고, 더 빠르게 도착하며, 다양한 형식으로 제공됩니다. 그리고 이러한 모든 데이터는 분석이나 기계 학습을 위해 대규모로 처리되어야 합니다. 하지만 이렇게 다양한 워크로드를 어떻게 효율적으로 처리할 수 있을까요? Apache Spark를 소개합니다.

Spark 3.0이 포함된 두 번째 버전으로 업데이트된 이 책은 데이터 엔지니어와 데이터 과학자에게 Spark에서 구조와 통합이 중요한 이유를 설명합니다. 특히, 이 책은 간단하고 복잡한 데이터 분석을 수행하고 머신 러닝 알고리즘을 사용하는 방법을 설명합니다. 단계별 안내, 코드 스니펫 및 노트북을 통해 다음을 수행할 수 있습니다.