Skip to Content
PySpark를 사용한 고급 분석
book

PySpark를 사용한 고급 분석

by Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
May 2025
Beginner to intermediate
236 pages
4h 13m
Korean
O'Reilly Media, Inc.
Content preview from PySpark를 사용한 고급 분석

6장. LDA와 Spark NLP로 Wikipedia 이해하기

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

최근 몇 년 동안 비정형 텍스트 데이터의 양이 증가함에 따라 관련성 있고 원하는 정보를 얻는 것이 어려워지고 있습니다. 언어 기술은 텍스트 데이터를 마이닝하고 원하는 정보를 가져오는 데 사용할 수 있는 강력한 방법을 제공합니다. 이 장에서는 이러한 기술 중 하나인 주제 모델링을 사용하기 위해 PySpark와 Spark NLP(자연어 처리) 라이브러리를 사용하겠습니다. 특히, 잠재 디리클레 알고리즘(LDA)을 사용해 Wikipedia 문서의 데이터 집합을 이해하겠습니다.

자연어 처리에서 가장 일반적인 작업 중 하나인토픽 모델링은 문서 모음에 존재하는 기본 토픽을 발견하는 데 도움이 되는 데이터 모델링을 위한 통계적 접근 방식입니다. 수백만 개의 문서에서 토픽 분포를 추출하는 것은 특정 제품 또는 모든 제품에 대한 불만의 원인을 파악하거나 뉴스 기사에서 토픽을 식별하는 등 여러 가지 면에서 유용할 수 있습니다. 토픽 모델링에 가장 많이 사용되는 알고리즘은 LDA입니다. 이는 문서가 토픽의 분포로 표현된다고 가정하는 생성 모델입니다. 토픽은 다시 단어의 분포로 표현됩니다. PySpark MLlib은 분산 환경에서 작동하도록 특별히 설계된 최적화된 버전의 LDA를 제공합니다. 데이터 전처리를 위해 Spark NLP를 사용하고 데이터에서 토픽을 추출하기 위해 Spark MLlib의 LDA를 사용하여 간단한 토픽 모델링 파이프라인을 구축하겠습니다.

이 장에서는 잠재된(숨겨진) 주제와 관계를 기반으로 인간의 지식을 추출하는 소박한 작업을 시작하겠습니다. 위키백과에 포함된 기사로 구성된 말뭉치에 LDA를 적용해 보겠습니다. 먼저 LDA의 기본 사항을 이해하고 PySpark에서 구현하는 방법을 살펴볼 것입니다. 그런 다음 데이터 세트를 다운로드하고 Spark NLP를 설치하여 프로그래밍 환경을 설정합니다. 그 다음에는 데이터 전처리가 이어집니다. NLP 작업을 훨씬 쉽게 만들어주는 Spark NLP 라이브러리의 기본 제공 메서드의 강력한 기능을 직접 확인하실 수 있습니다.

그런 다음 TF-IDF(용어 빈도 역 문서 빈도) 기법을 사용하여 문서에 있는 용어에 점수를 매기고 결과값을 LDA 모델에 입력합니다. 마지막으로 모델이 입력 문서에 할당된 주제를 살펴볼 것입니다. 항목을 읽지 않고도 어떤 항목이 어느 버킷에 속하는지 이해할 수 있어야 합니다. 먼저 LDA의 기본 사항부터 살펴보겠습니다.

잠재 디리클레 할당

잠재적 디리클레 할당( )의 기본 개념은 문서가 일련의 토픽을 기반으로 생성된다는 것입니다. 이 과정에서 각 문서가 토픽에 분포되어 있고 각 토픽이 용어 집합에 분포되어 있다고 가정합니다. 각 문서와 각 단어는 이러한 분포를 샘플링하여 생성됩니다. LDA 학습자는 역방향으로 작업하여 관찰된 것이 가장 가능성이 높은 분포를 식별하려고 시도합니다.

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

잘되는 머신러닝 팀엔 이유가 있다

잘되는 머신러닝 팀엔 이유가 있다

데이비드 탄, 에이다 양, 데이비드 콜스

Publisher Resources

ISBN: 9798341655669