book

Python을 사용한 응용 텍스트 분석

Name: Python을 사용한 응용 텍스트 분석
ISBN: 9798341659810

by Benjamin Bengfort, Rebecca Bilbro, Tony Ojeda

May 2025

Beginner to intermediate

332 pages

5h 35m

Korean

O'Reilly Media, Inc.

Read now

Unlock full access

서문
자연어의 계산적 과제언어 데이터: 토큰과 단어머신 러닝 시작하기텍스트 분석 도구이 책에서 기대할 수 있는 사항이 책의 대상코드 예제 및 GitHub 리포지토리이 책에서 사용된 규칙코드 예제 사용오라일리 사파리문의 방법감사
1. 언어 및 계산
데이터 과학 패러다임언어 인식 데이터 제품데이터 제품 파이프라인데이터로서의 언어언어의 계산 모델언어 기능상황에 맞는 기능구조적 특징결론
2. 사용자 지정 코퍼스 구축
코퍼스란 무엇인가요?도메인별 코퍼라베린 수집 엔진코퍼스 데이터 관리코퍼스 디스크 구조코퍼스 리더NLTK를 사용한 스트리밍 데이터 액세스HTML 코퍼스 읽기데이터베이스에서 말뭉치 읽기결론
3. 코퍼스 전처리 및 랭글링
문서 분석핵심 콘텐츠 식별 및 추출문서를 단락으로 분해하기세분화: 문장 나누기토큰화: 개별 토큰 식별품사 태깅중급 코퍼스 분석코퍼스 변환중간 전처리 및 저장처리된 말뭉치 읽기결론
4. 텍스트 벡터화 및 변환 파이프라인
스페이스의 단어주파수 벡터원핫 인코딩용어 빈도-역 문서 빈도분산 표현Scikit-Learn API베이스 에스티메이터 인터페이스트랜스포머믹신 확장파이프라인파이프라인 기본 사항하이퍼파라미터 최적화를 위한 그리드 검색특징 조합으로 특징 추출 강화하기결론
5. 텍스트 분석을 위한 분류
텍스트 분류분류 문제 식별분류기 모델텍스트 분류 애플리케이션 구축교차 유효성 검사모델 구성모델 평가모델 운영화결론
6. 텍스트 유사성을 위한 클러스터링
텍스트에 대한 비지도 학습문서 유사도별 클러스터링거리 메트릭부분 클러스터링계층적 클러스터링모델링 문서 주제잠재 디리클레 할당잠재 의미 분석비음수 행렬 인수분해결론
7. 문맥 인식 텍스트 분석
문법 기반 특징 추출문맥에 구애받지 않는 문법구문 분석기키프레이즈 추출엔티티 추출n-그램 특징 추출n-Gram 인식 코퍼스 리더올바른 n-Gram 창 선택하기중요한 조합n-Gram 언어 모델빈도 및 조건부 빈도최대 가능성 추정알 수 없는 단어: 백오프 및 스무딩언어 생성결론
8. 텍스트 시각화
특징 공간 시각화시각적 특징 분석가이드 기능 엔지니어링모델 진단클러스터 시각화클래스 시각화분류 오류 진단비주얼 스티어링실루엣 점수 및 팔꿈치 커브결론
9. 텍스트 그래프 분석
그래프 계산 및 분석그래프 기반 시소러스 만들기그래프 구조 분석그래프의 시각적 분석텍스트에서 그래프 추출소셜 그래프 만들기소셜 그래프에서 얻은 인사이트엔티티 해상도그래프의 엔티티 해상도구조로 차단하기퍼지 차단결론

10. 챗봇
대화의 기초대화 상자: 간단한 교환대화 유지 관리공손한 대화를 위한 규칙인사말 및 인사말잘못된 커뮤니케이션 처리재미있는 질문종속성 구문 분석선거구 구문 분석질문 감지큰 스푼에서 그램으로도움말 학습이웃이 되기오퍼링 권장 사항결론
11. 멀티프로세싱 및 Spark로 텍스트 분석 확장하기
Python 멀티프로세싱병렬로 작업 실행프로세스 풀 및 대기열병렬 코퍼스 전처리Spark를 사용한 클러스터 컴퓨팅Spark 작업의 해부학말뭉치 배포RDD 운영Spark를 사용한 NLP결론
12. Deep Learning과 그 너머
응용 신경망(Applied Neural Network+)신경 언어 모델인공 신경망(인공 신경망+)Deep Learning 아키텍처감정 분석심층 구조 분석미래는 (거의) 여기에 있습니다
용어집
색인

Content preview from Python을 사용한 응용 텍스트 분석

11장. 다중 처리 및 Spark로 텍스트 분석 확장하기

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

언어 인식 데이터 제품의 맥락에서 텍스트 코퍼스는 고정된 고정물이 아니라 끊임없이 성장하고 변화하는 살아있는 데이터 세트입니다. 예를 들어 질문과 답변 시스템을 생각해보면, 이는 단순히 답변을 제공하는 애플리케이션이 아니라 질문을 수집하는 애플리케이션이라고 할 수 있습니다. 즉, 비교적 적은 양의 질문 모음도 향후 더 나은 답변을 학습하도록 애플리케이션을 훈련시킬 수 있는 심층 자산으로 빠르게 성장할 수 있습니다.

안타깝게도 텍스트 처리 기술은 공간(메모리와 디스크)과 시간(계산 벤치마크) 측면에서 모두 비용이 많이 듭니다. 따라서 말뭉치가 커질수록 텍스트 분석에는 점점 더 많은 컴퓨팅 리소스가 필요합니다. 이 책을 통해 실험 중인 말뭉치에서 처리 시간이 얼마나 오래 걸리는지 경험해 보셨을 것입니다! 점점 커지는 대규모 데이터 세트의 문제를 해결하기 위한 기본 솔루션은 여러 컴퓨팅 리소스(프로세서, 디스크, 메모리)를 사용해 워크로드를 분산하는 것입니다. 여러 리소스가 동시에 서로 다른 계산 부분을 처리할 때 우리는 이를 병렬 처리라고 합니다.

병렬 처리(병렬 또는 분산 계산)에는 크게 두 가지 형태가 있습니다. 작업 병렬성은 동일한 데이터에 대해 서로 다른 독립적인 작업이 동시에 실행되는 것을 의미합니다. 데이터 병렬 처리는 동일한 연산을 여러 입력에 동시에 적용하는 것을 의미합니다. 작업 병렬 처리와 데이터 병렬 처리 모두 계산 속도를 높이기 위해 순차적 형태(한 번에 한 작업씩 차례로)로 계산을 가속화하는 데 자주 사용됩니다.

병렬 환경에서는 속도가 게임의 이름이며, 병렬 환경에서는 장단점이 존재한다는 점을 기억하는 것이 중요합니다. 큰 디스크가 적은 것보다 작은 디스크가 많으면 디스크에서 데이터를 더 빨리 읽을 수 있지만 각 디스크의 저장 용량이 줄어들고 개별적으로 읽어야 합니다. 병렬 계산은 다른 계산이 완료될 때까지 기다리지 않는 한 작업이 더 빨리 완료된다는 것을 의미합니다. 병렬 계산을 수행하기 위해 리소스를 설정하는 데는 시간과 노력이 필요하며, 그 노력이 속도 증가를 초과한다면 병렬 처리는 그만한 가치가 없습니다(암달의 법칙(¹ 를 참조하세요.) 속도의 또 다른 결과는 단일 리소스가 입력을 완전히 파악할 수 없기 때문에 완전한 계산이 아닌 근사치가 필요하다는 것입니다.

이 장에서는 병렬 처리에 대한 두 가지 접근 방식과 그 장단점에 대해 설명합니다. 첫 번째인 멀티프로세싱은 프로그램이 멀티코어 컴퓨터와 운영 체제 스레드를 사용할 수 있도록 하며, 실행되는 컴퓨터의 사양에 따라 제한되지만 설정 및 실행 속도가 훨씬 빠릅니다. 두 번째인 Spark는 일반적으로 어떤 규모로든 확장할 수 있지만 새로운 워크플로우와 유지 관리가 필요한 클러스터를 활용합니다. 이 장의 목표는 이러한 주제를 소개하여 텍스트 분석 워크플로우에 빠르게 적용할 수 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341659810

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Python을 사용한 응용 텍스트 분석

by Benjamin Bengfort, Rebecca Bilbro, Tony Ojeda

11장. 다중 처리 및 Spark로 텍스트 분석 확장하기

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.