book

PySpark를 사용한 고급 분석

Name: PySpark를 사용한 고급 분석
ISBN: 9798341655669

by Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills

May 2025

Beginner to intermediate

236 pages

4h 13m

Korean

O'Reilly Media, Inc.

Read now

Unlock full access

서문
왜 지금 이 책을 쓰게 되었나요?이 책의 구성 방법이 책에서 사용된 규칙코드 예제 사용오라일리 온라인 학습문의 방법감사
1. 빅 데이터 분석
빅 데이터로 작업하기Apache Spark 및 PySpark 소개구성 요소PySpark에코시스템Spark 3.0데이터 과학의 과제를 해결하는 PySpark어디로 갈까요?
2. PySpark를 사용한 데이터 분석 소개
Spark 아키텍처PySpark 설치하기데이터 설정DataFrame API로 데이터 분석하기데이터프레임에 대한 빠른 요약 통계데이터프레임 피벗 및 재구성하기데이터 프레임 조인 및 기능 선택채점 및 모델 평가어디로 갈까요?
3. 음악 추천 및 오디오스크롤러 데이터 세트
데이터 설정추천 시스템에 대한 요구 사항교대 최소제곱 알고리즘데이터 준비하기첫 번째 모델 구축스팟 검사 권장 사항추천 품질 평가컴퓨팅 AUC하이퍼파라미터 선택추천 만들기어디로 갈까요?
4. 의사 결정 트리 및 의사 결정 포리스트를 사용한 예측 만들기
의사 결정 트리 및 숲데이터 준비하기첫 번째 의사 결정 트리의사 결정 트리 하이퍼파라미터의사 결정 트리 조정범주 기능 재검토랜덤 포레스트예측 만들기어디로 갈까요?
5. K-평균 클러스터링을 통한 이상 징후 탐지
K-평균 클러스터링비정상적인 네트워크 트래픽 식별KDD 컵 1999 데이터 세트클러스터링에 대한 첫걸음k 선택SparkR을 사용한 시각화기능 정규화범주형 변수엔트로피와 함께 레이블 사용실제 클러스터링어디로 갈까요?
6. LDA 및 Spark NLP를 사용한 Wikipedia 이해하기
잠재 디리클레 할당PySpark의 LDA데이터 가져오기Spark NLP환경 설정데이터 구문 분석Spark NLP를 사용하여 데이터 준비하기TF-IDFTF-IDF 계산하기LDA 모델 만들기어디로 갈까요?
7. 택시 운행 데이터에 대한 지리적 및 시간적 데이터 분석
데이터 준비하기날짜/시간 문자열을 타임스탬프로 변환하기유효하지 않은 레코드 처리지리 공간 분석GeoJSON 소개지오판다PySpark의 세션화세션 만들기: PySpark에서 보조 정렬하기어디로 갈까요?
8. 재무 위험 추정
용어VaR 계산 방법분산-공분산역사 시뮬레이션몬테카를로 시뮬레이션모델데이터 가져오기데이터 준비하기요소 가중치 결정샘플링다변량 정규 분포평가판 실행수익률 분포 시각화어디로 갈까요?
9. 유전체학 데이터 분석과 BDG 프로젝트
모델링에서 스토리지 분리ADAM 설정ADAM을 사용한 유전체학 데이터 작업 소개ADAM CLI를 사용한 파일 형식 변환PySpark와 ADAM을 사용하여 유전체학 데이터 수집하기ENCODE 데이터에서 전사 인자 결합 부위 예측하기어디로 갈까요?

10. Deep Learning과 PySpark LSH를 이용한 이미지 유사도 감지
PyTorch설치데이터 준비하기PyTorch를 사용하여 이미지 크기 조정하기이미지의 벡터 표현을 위한 Deep Learning 모델이미지 임베딩PySpark로 이미지 임베딩 가져오기PySpark LSH를 이용한 이미지 유사도 검색가장 가까운 이웃 검색어디로 갈까요?
11. MLflow로 머신 러닝 수명 주기 관리하기
머신 러닝 수명 주기MLflow실험 추적ML 모델 관리 및 서비스MLflow 프로젝트 생성 및 사용어디로 갈까요?
색인
저자 소개

Content preview from PySpark를 사용한 고급 분석

6장. LDA와 Spark NLP로 Wikipedia 이해하기

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

최근 몇 년 동안 비정형 텍스트 데이터의 양이 증가함에 따라 관련성 있고 원하는 정보를 얻는 것이 어려워지고 있습니다. 언어 기술은 텍스트 데이터를 마이닝하고 원하는 정보를 가져오는 데 사용할 수 있는 강력한 방법을 제공합니다. 이 장에서는 이러한 기술 중 하나인 주제 모델링을 사용하기 위해 PySpark와 Spark NLP(자연어 처리) 라이브러리를 사용하겠습니다. 특히, 잠재 디리클레 알고리즘(LDA)을 사용해 Wikipedia 문서의 데이터 집합을 이해하겠습니다.

자연어 처리에서 가장 일반적인 작업 중 하나인토픽 모델링은 문서 모음에 존재하는 기본 토픽을 발견하는 데 도움이 되는 데이터 모델링을 위한 통계적 접근 방식입니다. 수백만 개의 문서에서 토픽 분포를 추출하는 것은 특정 제품 또는 모든 제품에 대한 불만의 원인을 파악하거나 뉴스 기사에서 토픽을 식별하는 등 여러 가지 면에서 유용할 수 있습니다. 토픽 모델링에 가장 많이 사용되는 알고리즘은 LDA입니다. 이는 문서가 토픽의 분포로 표현된다고 가정하는 생성 모델입니다. 토픽은 다시 단어의 분포로 표현됩니다. PySpark MLlib은 분산 환경에서 작동하도록 특별히 설계된 최적화된 버전의 LDA를 제공합니다. 데이터 전처리를 위해 Spark NLP를 사용하고 데이터에서 토픽을 추출하기 위해 Spark MLlib의 LDA를 사용하여 간단한 토픽 모델링 파이프라인을 구축하겠습니다.

이 장에서는 잠재된(숨겨진) 주제와 관계를 기반으로 인간의 지식을 추출하는 소박한 작업을 시작하겠습니다. 위키백과에 포함된 기사로 구성된 말뭉치에 LDA를 적용해 보겠습니다. 먼저 LDA의 기본 사항을 이해하고 PySpark에서 구현하는 방법을 살펴볼 것입니다. 그런 다음 데이터 세트를 다운로드하고 Spark NLP를 설치하여 프로그래밍 환경을 설정합니다. 그 다음에는 데이터 전처리가 이어집니다. NLP 작업을 훨씬 쉽게 만들어주는 Spark NLP 라이브러리의 기본 제공 메서드의 강력한 기능을 직접 확인하실 수 있습니다.

그런 다음 TF-IDF(용어 빈도 역 문서 빈도) 기법을 사용하여 문서에 있는 용어에 점수를 매기고 결과값을 LDA 모델에 입력합니다. 마지막으로 모델이 입력 문서에 할당된 주제를 살펴볼 것입니다. 항목을 읽지 않고도 어떤 항목이 어느 버킷에 속하는지 이해할 수 있어야 합니다. 먼저 LDA의 기본 사항부터 살펴보겠습니다.

잠재 디리클레 할당

잠재적 디리클레 할당( )의 기본 개념은 문서가 일련의 토픽을 기반으로 생성된다는 것입니다. 이 과정에서 각 문서가 토픽에 분포되어 있고 각 토픽이 용어 집합에 분포되어 있다고 가정합니다. 각 문서와 각 단어는 이러한 분포를 샘플링하여 생성됩니다. LDA 학습자는 역방향으로 작업하여 관찰된 것이 가장 가능성이 높은 분포를 식별하려고 시도합니다.

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341655669

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

PySpark를 사용한 고급 분석

by Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills

6장. LDA와 Spark NLP로 Wikipedia 이해하기

잠재 디리클레 할당

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.