book

Spark를 사용한 데이터 알고리즘

by Mahmoud Parsian

May 2025

Beginner to intermediate

438 pages

6h 57m

Korean

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

이 책을 쓴 이유이 책의 대상이 책의 구성 방법이 책에서 사용된 규칙코드 예제 사용오라일리 온라인 학습문의 방법감사
데이터 분석을 위해 Spark를 사용해야 하는 이유Spark 생태계Spark 아키텍처PySpark의 힘PySpark 아키텍처Spark 데이터 추상화RDD 예시Spark RDD 운영데이터프레임 예제PySpark 셸 사용하기PySpark 셸 시작하기컬렉션에서 RDD 만들기키의 값 집계 및 병합RDD의 요소 필터링하기유사한 키 그룹화유사한 키에 대한 값 집계데이터 프레임을 사용한 ETL 예제추출변환로드 중요약
DNA 염기 수 예시DNA 염기 수 문제FASTA 형식샘플 데이터DNA 염기 수 솔루션 11단계: 입력에서 RDD[문자열] 만들기2단계: 매퍼 함수 정의3단계: DNA 문자의 주파수 찾기솔루션 1의 장단점DNA 염기 수 솔루션 21단계: 입력에서 RDD[문자열] 만들기2단계: 매퍼 함수 정의3단계: DNA 문자의 주파수 찾기솔루션 2의 장단점DNA 염기 수 솔루션 3mapPartitions() 변환1단계: 입력에서 RDD[문자열] 만들기2단계: 파티션을 처리하는 함수 정의하기3단계: 각 파티션에 사용자 지정 함수 적용하기솔루션 3의 장단점요약
데이터 추상화 및 매퍼트랜스포메이션이란 무엇인가요?게으른 변환map() 변환데이터프레임 매퍼flatMap() 변환map() 대 flatMap()flatMap()을 데이터 프레임에 적용mapValues() 변환flatMapValues() 변환mapPartitions() 변환빈 파티션 처리하기장점과 단점데이터 프레임 및 맵 파티션() 변환요약
쌍 RDD 생성감소 변환Spark의 절감 효과간단한 워밍업 예시reduceByKey()로 풀기groupByKey()로 풀기aggregateByKey()로 풀기콤바인바이키()로 풀기모노이드란 무엇인가요?모노이드 및 비모노이드 예제영화 문제분석할 데이터 세트 입력aggregateByKey() 변환aggregateByKey()를 사용한 첫 번째 솔루션aggregateByKey()를 사용한 두 번째 솔루션groupByKey()를 사용하여 PySpark 솔루션 완성하기reduceByKey()를 사용하여 PySpark 솔루션 완성하기결합ByKey()를 사용하여 PySpark 솔루션 완성하기절감의 셔플 단계그룹별 키()의 셔플 단계reduceByKey()의 셔플 단계요약
파티션 소개Spark의 파티션파티션 관리기본 파티셔닝명시적 파티셔닝SQL 쿼리를 위한 물리적 파티셔닝Spark에서 데이터의 물리적 파티셔닝텍스트 형식으로 파티션마루 형식으로 파티션분할된 데이터를 쿼리하는 방법아마존 아테나 사례요약
그래프 소개그래프 프레임 API그래프프레임 사용 방법그래프프레임 함수 및 속성그래프 프레임 알고리즘삼각형 찾기모티브 찾기실제 애플리케이션유전자 분석소셜 추천Facebook 서클연결된 구성 요소비행 데이터 분석요약

관계형 데이터베이스데이터베이스에서 읽기데이터베이스에 데이터프레임 쓰기텍스트 파일 읽기CSV 파일 읽기 및 쓰기CSV 파일 읽기CSV 파일 작성JSON 파일 읽기 및 쓰기JSON 파일 읽기JSON 파일 작성Amazon S3에서 읽기 및 쓰기Amazon S3에서 읽기Amazon S3에 쓰기Hadoop 파일 읽기 및 쓰기Hadoop 텍스트 파일 읽기Hadoop 텍스트 파일 작성하기HDFS 시퀀스 파일 읽기 및 쓰기마루 파일 읽기 및 쓰기마루 파일 작성마루 파일 읽기Avro 파일 읽기 및 쓰기Avro 파일 읽기Avro 파일 작성MS SQL Server에서 읽기 및 쓰기MS SQL Server에 쓰기MS SQL Server에서 읽기이미지 파일 읽기이미지에서 데이터프레임 만들기요약
제품 순위순위 제품 계산랭크 제품 공식화순위 제품 예시PySpark 솔루션PageRankPageRank의 반복 계산RDD를 사용한 PySpark의 사용자 정의 PageRank인접성 매트릭스를 사용한 PySpark의 사용자 정의 PageRank그래프 프레임을 사용한 페이지 순위요약
입력-맵-출력RDD 솔루션데이터프레임 솔루션플랫 매퍼 기능입력-필터-출력RDD 솔루션데이터프레임 솔루션데이터프레임 필터입력-맵-축소-출력RDD 솔루션데이터프레임 솔루션입력-다중-맵-축소-출력RDD 솔루션데이터프레임 솔루션입력-맵-결합기-축소-출력입력-맵 파티션-축소-출력반전 인덱스문제 설명입력출력PySpark 솔루션요약
인-매퍼 결합기본 MapReduce 알고리즘레코드당 인-매퍼 결합파티션별 인-매퍼 결합Top-10Top-N 공식화PySpark 솔루션하위 10% 찾기MinMax솔루션 1: 클래식 MapReduce해결 방법 2: 정렬해결 방법 3: Spark의 mapPartitions()복합 패턴과 모노이드모노이드모노이드 및 비모노이드 예제비모노이드 맵리듀스 예제모노이드 맵리듀스 예제PySpark로 모노이드 평균 구현하기펑터와 모노이드모노이드 사용에 대한 결론비닝정렬요약
조인 작업 소개MapReduce에 참여하기지도 단계감속기 단계PySpark에서 구현하기RDD를 사용한 맵 측 조인데이터 프레임을 사용한 맵 측면 조인1단계: 공항용 캐시 생성2단계: 항공사를 위한 캐시 생성3단계: 팩트 테이블 만들기4단계: 맵 사이드 조인 적용블룸 필터를 사용한 효율적인 조인블룸 필터 소개간단한 블룸 필터 예제Python의 블룸 필터PySpark에서 블룸 필터 사용하기요약
기능 엔지니어링 소개새로운 기능 추가UDF 적용파이프라인 만들기데이터 이진화추론토큰화토큰화 도구정규식 토큰화파이프라인을 통한 토큰화표준화정규화파이프라인을 사용하여 열 크기 조정하기여러 열에 MinMaxScaler 사용노멀라이저를 사용한 정규화문자열 인덱싱단일 열에 문자열 인덱서 적용하기여러 열에 문자열 인덱서 적용하기벡터 어셈블리버켓팅버킷라이저퀀타일 디스크리타이저로그 변환원핫 인코딩TF-IDF기능해셔SQLTransformer요약

Content preview from Spark를 사용한 데이터 알고리즘

2장. 행동하는 혁신

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

이 장에서는 데이터 요약 디자인 패턴의 맥락에서 가장 중요한 Spark 변환(매퍼와 리듀서)을 살펴보고, 대상 문제에 대해 특정 변환을 선택하는 방법을 살펴봅니다.

보시다시피 주어진 문제 (여기서는 DNA 염기 수 문제를 사용하겠습니다)에 대해 서로 다른 Spark 변환을 사용하는 여러 가지 가능한 PySpark 솔루션이 있지만 이러한 변환의 효율성은 구현 및 셔플 프로세스 (키별로 값 그룹화가 발생하는 경우)로 인해 다릅니다. DNA 염기 수 문제는 고전적인 단어 수 문제(파일/문서 세트에서 고유한 단어의 빈도 찾기)와 매우 유사하지만, DNA 염기 수에서는 DNA 문자의 빈도를 찾는다는 차이점이 있습니다 (A, T, C,G).

이 문제를 선택한 이유는 이 문제를 풀면서 많은 양의 정보(여기서는 DNA 데이터 문자열/서열)를 훨씬 더 작은 유용한 정보(DNA 문자의 빈도)로 압축하는 데이터 요약에 대해 배울 수 있기 때문입니다.

이 장에서는 DNA 염기 수 문제를 해결하기 위해 서로 다른 매퍼와 환원법을 사용하는 PySpark의 세 가지 완전한 엔드투엔드 솔루션을 제공합니다. 이들 간의 성능 차이에 대해 논의하고 데이터 요약 디자인패턴을 살펴봅니다.

DNA 염기 수 예시

이 장의 예제의 목적은 주어진 DNA 문자열/서열 세트에서 DNA 염기 수를 세는 것입니다. DNA, 생물학 또는 유전체학 전문가가 아니어도 이 예제를 이해할 수 있으니 걱정하지 마세요. 기본적인 내용만 알아두면 충분히 이해할 수 있을 것입니다.

인간의 DNA는 약 30억 개의 염기로 구성되어 있으며, 그 중 99% 이상이 모든 사람에게 동일합니다. DNA 염기 수를 이해하려면 먼저 DNA 문자열을 이해해야 합니다. DNA 염기는 아데닌(A), 시토신(C), 구아닌(G), 티민(T)을 나타내는 알파벳 {A, C, G, T} 으로 구성됩니다. 우리의 DNA는 일련의 DNA 문자열로 구성되어 있습니다. 우리가 답하고자 하는 질문은 DNA 문자열 세트에서 각 염기 문자가 몇 번이나 나타나는지입니다. 예를 들어 "AAATGGCATTA" 라는 DNA 문자열이 있는데 이 문자열에서 염기 A가 몇 번 나오는지 묻는다면 답은 5이고, 염기 T 가 몇 번 나오는지 묻는다면 답은 3입니다. 따라서 대소문자를 무시하고 각 염기의 발생 횟수를 세고 싶습니다. DNA 기계는 대문자와 소문자를 생성할 수 있으므로 모두 소문자로 변환합니다.

이 문제에 대해 강력하고 효율적인 Spark 변환의 다양한 조합을 사용하여 세 가지 다른 솔루션을 제공하겠습니다. 모든 솔루션이 동일한 결과를 생성하지만 사용된 변환으로 인해 성능이 달라집니다.

그림 2-1은 Spark를 사용하여 DNA 염기 수 문제를 해결하는 과정을 보여줍니다. 각 솔루션에 대해 PySpark ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341655317Supplemental Content

Spark를 사용한 데이터 알고리즘

by Mahmoud Parsian

2장. 행동하는 혁신

DNA 염기 수 예시

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

데이터 엔지니어를 위한 97가지 조언

클라우드 엔지니어를 위한 97가지 조언

프로그래머의 길 멘토에게 묻다

데이터 관리 대규모 적용, 2판

Publisher Resources

2장. 행동하는 혁신

DNA 염기 수 예시

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

데이터 엔지니어를 위한 97가지 조언

클라우드 엔지니어를 위한 97가지 조언

프로그래머의 길 멘토에게 묻다

데이터 관리 대규모 적용, 2판

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.