book

Python을 사용한 응용 텍스트 분석

Name: Python을 사용한 응용 텍스트 분석
ISBN: 9798341659810

by Benjamin Bengfort, Rebecca Bilbro, Tony Ojeda

May 2025

Beginner to intermediate

332 pages

5h 35m

Korean

O'Reilly Media, Inc.

Read now

Unlock full access

서문
자연어의 계산적 과제언어 데이터: 토큰과 단어머신 러닝 시작하기텍스트 분석 도구이 책에서 기대할 수 있는 사항이 책의 대상코드 예제 및 GitHub 리포지토리이 책에서 사용된 규칙코드 예제 사용오라일리 사파리문의 방법감사
1. 언어 및 계산
데이터 과학 패러다임언어 인식 데이터 제품데이터 제품 파이프라인데이터로서의 언어언어의 계산 모델언어 기능상황에 맞는 기능구조적 특징결론
2. 사용자 지정 코퍼스 구축
코퍼스란 무엇인가요?도메인별 코퍼라베린 수집 엔진코퍼스 데이터 관리코퍼스 디스크 구조코퍼스 리더NLTK를 사용한 스트리밍 데이터 액세스HTML 코퍼스 읽기데이터베이스에서 말뭉치 읽기결론
3. 코퍼스 전처리 및 랭글링
문서 분석핵심 콘텐츠 식별 및 추출문서를 단락으로 분해하기세분화: 문장 나누기토큰화: 개별 토큰 식별품사 태깅중급 코퍼스 분석코퍼스 변환중간 전처리 및 저장처리된 말뭉치 읽기결론
4. 텍스트 벡터화 및 변환 파이프라인
스페이스의 단어주파수 벡터원핫 인코딩용어 빈도-역 문서 빈도분산 표현Scikit-Learn API베이스 에스티메이터 인터페이스트랜스포머믹신 확장파이프라인파이프라인 기본 사항하이퍼파라미터 최적화를 위한 그리드 검색특징 조합으로 특징 추출 강화하기결론
5. 텍스트 분석을 위한 분류
텍스트 분류분류 문제 식별분류기 모델텍스트 분류 애플리케이션 구축교차 유효성 검사모델 구성모델 평가모델 운영화결론
6. 텍스트 유사성을 위한 클러스터링
텍스트에 대한 비지도 학습문서 유사도별 클러스터링거리 메트릭부분 클러스터링계층적 클러스터링모델링 문서 주제잠재 디리클레 할당잠재 의미 분석비음수 행렬 인수분해결론
7. 문맥 인식 텍스트 분석
문법 기반 특징 추출문맥에 구애받지 않는 문법구문 분석기키프레이즈 추출엔티티 추출n-그램 특징 추출n-Gram 인식 코퍼스 리더올바른 n-Gram 창 선택하기중요한 조합n-Gram 언어 모델빈도 및 조건부 빈도최대 가능성 추정알 수 없는 단어: 백오프 및 스무딩언어 생성결론
8. 텍스트 시각화
특징 공간 시각화시각적 특징 분석가이드 기능 엔지니어링모델 진단클러스터 시각화클래스 시각화분류 오류 진단비주얼 스티어링실루엣 점수 및 팔꿈치 커브결론
9. 텍스트 그래프 분석
그래프 계산 및 분석그래프 기반 시소러스 만들기그래프 구조 분석그래프의 시각적 분석텍스트에서 그래프 추출소셜 그래프 만들기소셜 그래프에서 얻은 인사이트엔티티 해상도그래프의 엔티티 해상도구조로 차단하기퍼지 차단결론

10. 챗봇
대화의 기초대화 상자: 간단한 교환대화 유지 관리공손한 대화를 위한 규칙인사말 및 인사말잘못된 커뮤니케이션 처리재미있는 질문종속성 구문 분석선거구 구문 분석질문 감지큰 스푼에서 그램으로도움말 학습이웃이 되기오퍼링 권장 사항결론
11. 멀티프로세싱 및 Spark로 텍스트 분석 확장하기
Python 멀티프로세싱병렬로 작업 실행프로세스 풀 및 대기열병렬 코퍼스 전처리Spark를 사용한 클러스터 컴퓨팅Spark 작업의 해부학말뭉치 배포RDD 운영Spark를 사용한 NLP결론
12. Deep Learning과 그 너머
응용 신경망(Applied Neural Network+)신경 언어 모델인공 신경망(인공 신경망+)Deep Learning 아키텍처감정 분석심층 구조 분석미래는 (거의) 여기에 있습니다
용어집
색인

Content preview from Python을 사용한 응용 텍스트 분석

5장. 텍스트 분석을 위한 분류

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

1990년대 후반 대형 이메일 제공업체 중 한 곳에서 일하면서 전 세계 서버에서 점점 더 많은 양의 이메일을 처리하고 있다고 상상해 보세요. 이메일의 보급과 경제성으로 인해 이메일은 주요 커뮤니케이션 수단으로 자리 잡았고 비즈니스는 호황을 누리고 있었습니다. 하지만 안타깝게도 정크 이메일의 증가도 함께 증가했습니다. 무해한 인터넷 제품 광고도 있지만, 서버에 심각한 부담을 주는 대량으로 전송되는 광고도 있습니다. 또한 이메일은 규제를 받지 않기 때문에 허위 광고, 다단계 사기, 가짜 투자 등 유해한 메시지가 점점 더 많아지고 있습니다. 어떻게 해야 할까요?

스패머의 이메일 주소 또는 IP 주소를 블랙리스트에 추가하거나 스팸 이메일임을 나타내는 키워드를 검색하는 것으로 시작할 수 있습니다. 안타깝게도 새로운 이메일이나 IP 주소를 얻는 것이 비교적 쉽기 때문에 스패머는 아무리 잘 선별된 블랙리스트도 빠르게 우회합니다. 더 큰 문제는 블랙리스트와 화이트리스트가 유효한 이메일을 제대로 처리하지 못해 사용자들의 불만을 사고 있다는 점입니다. 더 나은 솔루션, 대규모로 작동하는 유연하고 확률적인 솔루션이 필요하다면 바로 머신 러닝을 도입하세요.

수십 년 전으로 거슬러 올라가면 스팸 필터링은 가장 일반적이고 상업적으로 가장 성공적인 텍스트 분류 모델입니다. 핵심적인 혁신은 이메일의 콘텐츠가 스팸 여부를 판단하는 주요 기준이 되었다는 점입니다. 단순히 "viagra" 또는 "Nigerian prince" 이라는 용어의 존재 여부가 아니라 문맥, 빈도, 맞춤법 오류 등이 스팸 여부를 판단하는 기준이 됩니다. 스팸 이메일과 스팸 이메일의 코퍼스 수집을 통해 나이브 베이즈 모델, 즉 단어의 빈도에 따라 스팸 이메일과 스팸 이메일에 해당 단어가 포함될 확률을 예측하는 모델을 구축할 수 있었습니다.

이 장에서는 먼저 몇 가지 실제 분류 사례를 살펴봄으로써 이러한 문제를 애플리케이션에 맞게 공식화하는 방법을 살펴봅니다. 그런 다음 분류기 워크플로를 살펴보고 4장에서 설명한 벡터화 방법론을 확장하여 2장에서 소개한 Baleen 코퍼스를 사용해 토픽 분류를 위한 모델링 파이프라인을 만들 것입니다. 마지막으로, 지금까지 구축한 기초 데이터 레이어 위에 직접 구축하는 워크플로우의 다음 단계를 살펴보겠습니다. 이러한 다음 단계는 1장에서 소개한 '모델 선택 3단계' 의 맥락에서 설명하겠습니다.

텍스트 분류

분류는 텍스트 분석의 기본 형태이며 다양한 영역과 애플리케이션에서 널리 사용됩니다. 분류의 전제는 범주형 대상 변수가 주어지면 독립 변수로 구성된 인스턴스 사이에 존재하는 패턴과 대상과의 관계를 학습하는 간단한 방식입니다. 목표가 미리 주어지기 때문에 훈련 데이터에서 예측된 범주와 실제 범주 사이의 오차를 최소화하도록 모델을 훈련할 수 있기 때문에 분류를 지도 머신 러닝이라고 합니다. 분류 모델이 적합해지면 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341659810

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Python을 사용한 응용 텍스트 분석

by Benjamin Bengfort, Rebecca Bilbro, Tony Ojeda

5장. 텍스트 분석을 위한 분류

텍스트 분류

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.