Book description
오픈소스 클러스터 컴퓨팅 프레임워크인 스파크의 창시자가 쓴 스파크에 대한 종합 안내서입니다. 스파크 사용법부터 배포, 유지 보수하는 방법까지 포괄적으로 익힐 수 있습니다. 스파크 2의 개선점과 새로운 기능을 자세히 설명합니다. 구조화된 스파크 API의 특징과 공통 기능은 물론이고, 엔드 투 엔드 스트리밍 애플리케이션을 구축하는 새로운 고수준 API인 구조적 스트리밍을 함께 살펴봅니다. 이 책을 읽으면 스파크를 모니터링, 튜닝, 디버깅하는 데 필요한 기본 지식을 습득할 수 있습니다. 나아가 스파크의 확장 머신러닝 라이브러리인 MLlib을 사용하는 방법과 시나리오를 익힐 수 있습니다.
Table of contents
- 스파크 완벽 가이드
- 1부 빅데이터와 스파크 간단히 살펴보기
-
2부 구조적 API: DataFrame, SQL, Dataset
- 4장 구조적 API 개요
-
5장 구조적 API 기본 연산
- 5.1 스키마
- 5.2 컬럼과 표현식
- 5.3 레코드와 로우
- 5.4 DataFrame의 트랜스포메이션 (1/5)
- 5.4 DataFrame의 트랜스포메이션 (2/5)
- 5.4 DataFrame의 트랜스포메이션 (3/5)
- 5.4 DataFrame의 트랜스포메이션 (4/5)
-
5.4 DataFrame의 트랜스포메이션 (5/5)
- 5.4.1 DataFrame 생성하기
- 5.4.2 select와 selectExpr
- 5.4.3 스파크 데이터 타입으로 변환하기
- 5.4.4 컬럼 추가하기
- 5.4.5 컬럼명 변경하기
- 5.4.6 예약 문자와 키워드
- 5.4.7 대소문자 구분
- 5.4.8 컬럼 제거하기
- 5.4.9 컬럼의 데이터 타입 변경하기
- 5.4.10 로우 필터링하기
- 5.4.11 고유한 로우 얻기
- 5.4.12 무작위 샘플 만들기
- 5.4.13 임의 분할하기
- 5.4.14 로우 합치기와 추가하기
- 5.4.15 로우 정렬하기
- 5.4.16 로우 수 제한하기
- 5.4.17 repartition과 coalesce
- 5.4.18 드라이버로 로우 데이터 수집하기
- 5.5 정리
- 6장 다양한 데이터 타입 다루기
- 7장 집계 연산
- 8장 조인
- 9장 데이터소스
- 10장 스파크 SQL
- 11장 Dataset
- 3부 저수준 API
-
4부 운영용 애플리케이션
- 15장 클러스터에서 스파크 실행하기
- 16장 스파크 애플리케이션 개발하기
- 17장 스파크 배포 환경
-
18장 모니터링과 디버깅
- 18.1 모니터링 범위
- 18.2 모니터링 대상
- 18.3 스파크 로그
- 18.4 스파크 UI (1/2)
- 18.4 스파크 UI (2/2)
- 18.5 디버깅 및 스파크 응급 처치 (1/3)
- 18.5 디버깅 및 스파크 응급 처치 (2/3)
-
18.5 디버깅 및 스파크 응급 처치 (3/3)
- 18.5.1 스파크 애플리케이션이 시작되지 않는 경우
- 18.5.2 스파크 애플리케이션 실행 전에 오류가 발생한 경우
- 18.5.3 스파크 애플리케이션 실행 중에 오류가 발생한 경우
- 18.5.4 느리거나 뒤처진 태스크
- 18.5.5 느린 집계 속도
- 18.5.6 느린 조인 속도
- 18.5.7 느린 읽기와 쓰기 속도
- 18.5.8 드라이버 OutOfMemoryError 또는 응답 없음
- 18.5.9 익스큐터 OutOfMemoryError 또는 응답 없음
- 18.5.10 의도하지 않은 null 값이 있는 결과 데이터
- 18.5.11 디스크 공간 없음 오류
- 18.5.12 직렬화 오류
- 18.6 정리
- 19장 성능 튜닝
-
5부 스트리밍
- 20장 스트림 처리의 기초
- 21장 구조적 스트리밍의 기초
- 22장 이벤트 시간과 상태 기반 처리
- 23장 운영 환경에서의 구조적 스트리밍
-
6부 고급 분석과 머신러닝
- 24장 고급 분석과 머신러닝 개요
- 25장 데이터 전처리 및 피처 엔지니어링
- 26장 분류
- 27장 회귀
- 28장 추천
- 29장 비지도 학습
- 30장 그래프 분석
- 31장 딥러닝
- 7부 에코시스템
- 부록 A 스파크 설치 및 실행
- 부록 B 더블린 원정대: 스파크 서밋 2017 더블린 참관기
- 찾아보기 (1/3)
- 찾아보기 (2/3)
- 찾아보기 (3/3)
Product information
- Title: 스파크 완벽 가이드: 스파크를 활용한 빅테이터 처리와 분석의 모든 것
- Author(s):
- Release date: January 2019
- Publisher(s): Hanbit Media, Inc.
- ISBN: 9791162241288
You might also like
book
Tiny Python Projects
The projects are tiny, but the rewards are big: each chapter in Tiny Python Projects challenges …
book
40 Algorithms Every Programmer Should Know
Learn algorithms for solving classic computer science problems with this concise guide covering everything from fundamental …
book
파이썬 라이브러리를 활용한 데이터 분석(2판): 영화 평점, 이름 통계, 선거 데이터 등 실사례 사용
이 책은 NumPy, pandas, matplotlib, IPython, Jupyter 등 다양한 파이썬 라이브러리를 사용해서 효과적으로 데이터를 분석하는 방법을 …
book
Analytical Skills for AI and Data Science
While several market-leading companies have successfully transformed their business models by following data- and AI-driven paths, …