Book description
오픈소스 클러스터 컴퓨팅 프레임워크인 스파크의 창시자가 쓴 스파크에 대한 종합 안내서입니다. 스파크 사용법부터 배포, 유지 보수하는 방법까지 포괄적으로 익힐 수 있습니다. 스파크 2의 개선점과 새로운 기능을 자세히 설명합니다. 구조화된 스파크 API의 특징과 공통 기능은 물론이고, 엔드 투 엔드 스트리밍 애플리케이션을 구축하는 새로운 고수준 API인 구조적 스트리밍을 함께 살펴봅니다. 이 책을 읽으면 스파크를 모니터링, 튜닝, 디버깅하는 데 필요한 기본 지식을 습득할 수 있습니다. 나아가 스파크의 확장 머신러닝 라이브러리인 MLlib을 사용하는 방법과 시나리오를 익힐 수 있습니다.
Table of contents
- 스파크 완벽 가이드
- 1부 빅데이터와 스파크 간단히 살펴보기
-
2부 구조적 API: DataFrame, SQL, Dataset
- 4장 구조적 API 개요
-
5장 구조적 API 기본 연산
- 5.1 스키마
- 5.2 컬럼과 표현식
- 5.3 레코드와 로우
- 5.4 DataFrame의 트랜스포메이션 (1/5)
- 5.4 DataFrame의 트랜스포메이션 (2/5)
- 5.4 DataFrame의 트랜스포메이션 (3/5)
- 5.4 DataFrame의 트랜스포메이션 (4/5)
-
5.4 DataFrame의 트랜스포메이션 (5/5)
- 5.4.1 DataFrame 생성하기
- 5.4.2 select와 selectExpr
- 5.4.3 스파크 데이터 타입으로 변환하기
- 5.4.4 컬럼 추가하기
- 5.4.5 컬럼명 변경하기
- 5.4.6 예약 문자와 키워드
- 5.4.7 대소문자 구분
- 5.4.8 컬럼 제거하기
- 5.4.9 컬럼의 데이터 타입 변경하기
- 5.4.10 로우 필터링하기
- 5.4.11 고유한 로우 얻기
- 5.4.12 무작위 샘플 만들기
- 5.4.13 임의 분할하기
- 5.4.14 로우 합치기와 추가하기
- 5.4.15 로우 정렬하기
- 5.4.16 로우 수 제한하기
- 5.4.17 repartition과 coalesce
- 5.4.18 드라이버로 로우 데이터 수집하기
- 5.5 정리
- 6장 다양한 데이터 타입 다루기
- 7장 집계 연산
- 8장 조인
- 9장 데이터소스
- 10장 스파크 SQL
- 11장 Dataset
- 3부 저수준 API
-
4부 운영용 애플리케이션
- 15장 클러스터에서 스파크 실행하기
- 16장 스파크 애플리케이션 개발하기
- 17장 스파크 배포 환경
-
18장 모니터링과 디버깅
- 18.1 모니터링 범위
- 18.2 모니터링 대상
- 18.3 스파크 로그
- 18.4 스파크 UI (1/2)
- 18.4 스파크 UI (2/2)
- 18.5 디버깅 및 스파크 응급 처치 (1/3)
- 18.5 디버깅 및 스파크 응급 처치 (2/3)
-
18.5 디버깅 및 스파크 응급 처치 (3/3)
- 18.5.1 스파크 애플리케이션이 시작되지 않는 경우
- 18.5.2 스파크 애플리케이션 실행 전에 오류가 발생한 경우
- 18.5.3 스파크 애플리케이션 실행 중에 오류가 발생한 경우
- 18.5.4 느리거나 뒤처진 태스크
- 18.5.5 느린 집계 속도
- 18.5.6 느린 조인 속도
- 18.5.7 느린 읽기와 쓰기 속도
- 18.5.8 드라이버 OutOfMemoryError 또는 응답 없음
- 18.5.9 익스큐터 OutOfMemoryError 또는 응답 없음
- 18.5.10 의도하지 않은 null 값이 있는 결과 데이터
- 18.5.11 디스크 공간 없음 오류
- 18.5.12 직렬화 오류
- 18.6 정리
- 19장 성능 튜닝
-
5부 스트리밍
- 20장 스트림 처리의 기초
- 21장 구조적 스트리밍의 기초
- 22장 이벤트 시간과 상태 기반 처리
- 23장 운영 환경에서의 구조적 스트리밍
-
6부 고급 분석과 머신러닝
- 24장 고급 분석과 머신러닝 개요
- 25장 데이터 전처리 및 피처 엔지니어링
- 26장 분류
- 27장 회귀
- 28장 추천
- 29장 비지도 학습
- 30장 그래프 분석
- 31장 딥러닝
- 7부 에코시스템
- 부록 A 스파크 설치 및 실행
- 부록 B 더블린 원정대: 스파크 서밋 2017 더블린 참관기
- 찾아보기 (1/3)
- 찾아보기 (2/3)
- 찾아보기 (3/3)
Product information
- Title: 스파크 완벽 가이드: 스파크를 활용한 빅테이터 처리와 분석의 모든 것
- Author(s):
- Release date: January 2019
- Publisher(s): Hanbit Media, Inc.
- ISBN: 9791162241288
You might also like
book
코드로 인프라 관리하기: 효율적인 인프라 관리를 위한 자동화 방법
『코드로 인프라 관리하기』는 시스템 관리자가 자동으로 플랫폼을 통제하는 ‘코드로서의 인프라’를 세 부분으로 나눠 소개하는 안내서다. 1부에서는 …
book
하둡 완벽 가이드(4판): 데이터의 숨겨진 힘을 끌어내는 최고의 클라우드 컴퓨팅 기술
하둡 프로젝트의 커미터이자 핵심 설계자인 톰 화이트가 집필한 이 책은 하둡 창시자인 더그 커팅을 비롯한 프로젝트별 …
book
매니징 쿠버네티스: 창시자가 알려주는 쿠버네티스 클러스터 현장 운영 기법
이 책은 쿠버네티스 기능을 최대로 활용하고 싶은 개발자와 운영자를 위한 책입니다. 쿠버네티스의 구성 방식과 작동 원리를 …
book
전문가를 위한 파이썬: 간단하고, 명료하고, 효율적인 파이썬 프로그래밍 (파이썬 3 버전 기반)
초보자들이 놓치기 쉬운 파이썬 기능을 활용하여, 효율적인 파이썬 코드 작성 방법을 제시하는 실용 안내서다. 특히 다른 …