book

Python을 사용한 텍스트 분석을 위한 청사진

Name: Python을 사용한 텍스트 분석을 위한 청사진
ISBN: 9798341655997

by Jens Albrecht, Sidharth Ramachandran, Christian Winkler

May 2025

Beginner to intermediate

424 pages

7h 31m

Korean

O'Reilly Media, Inc.

Read now

Unlock full access

서문
책의 접근 방식전제 조건알아야 할 몇 가지 중요한 라이브러리읽을 책이 책에서 사용된 규칙코드 예제 사용오라일리 온라인 학습문의 방법감사
1. 텍스트 데이터에서 초기 인사이트 확보하기
학습할 내용과 구축할 내용탐색적 데이터 분석데이터 세트 소개블루프린트: 판다로 데이터 개요 파악하기열에 대한 요약 통계 계산누락된 데이터 확인값 분포 플로팅카테고리별 가치 분포 비교시간 경과에 따른 개발 현황 시각화블루프린트: 간단한 텍스트 전처리 파이프라인 구축하기정규 표현식을 사용하여 토큰화 수행중지 단어 처리한 줄의 코드로 파이프라인 처리하기단어 빈도 분석을 위한 블루프린트청사진: 카운터로 단어 수 세기블루프린트: 주파수 다이어그램 만들기청사진: 워드 클라우드 만들기청사진 TF-IDF를 통한 랭킹블루프린트: 컨텍스트 내 키워드 찾기블루프린트: N-Gram 분석청사진: 시간 간격 및 카테고리별 주파수 비교하기빈도 타임라인 만들기빈도 히트맵 만들기맺음말
2. API로 텍스트 인사이트 추출하기
학습할 내용과 구축할 내용애플리케이션 프로그래밍 인터페이스블루프린트: 요청 모듈을 사용하여 API에서 데이터 추출하기페이지 매김요금 제한청사진: Tweepy로 트위터 데이터 추출하기자격 증명 얻기Tweepy 설치 및 구성검색 API에서 데이터 추출하기사용자 타임라인에서 데이터 추출하기스트리밍 API에서 데이터 추출하기맺음말
3. 웹사이트 스크래핑 및 데이터 추출
학습할 내용과 구축할 내용스크래핑 및 데이터 추출로이터 뉴스 아카이브 소개URL 생성블루프린트 robots.txt 다운로드 및 해석하기블루프린트 sitemap.xml에서 URL 찾기청사진 RSS에서 URL 찾기데이터 다운로드블루프린트: Python으로 HTML 페이지 다운로드하기청사진: wget으로 HTML 페이지 다운로드하기반정형 데이터 추출블루프린트: 정규 표현식을 사용한 데이터 추출블루프린트: 추출을 위한 HTML 파서 사용블루프린트: 스파이더링사용 사례 소개오류 처리 및 생산 품질 소프트웨어밀도 기반 텍스트 추출가독성 있는 로이터 콘텐츠 추출요약 밀도 기반 텍스트 추출올인원 접근 방식청사진: 스크랩으로 로이터 아카이브 스크랩하기스크래핑 시 발생할 수 있는 문제마무리 발언 및 권장 사항
4. 통계 및 기계 학습을 위한 텍스트 데이터 준비하기
학습할 내용과 구축할 내용데이터 전처리 파이프라인데이터 집합을 소개합니다: 레딧 셀프 게시물판다에 데이터 로드블루프린트: 속성 이름 표준화데이터프레임 저장 및 로드텍스트 데이터 정리블루프린트: 정규 표현식으로 노이즈 식별하기블루프린트: 정규 표현식으로 노이즈 제거하기블루프린트: 텍스트성을 사용한 캐릭터 노멀라이제이션블루프린트 텍스트를 이용한 패턴 기반 데이터 마스킹토큰화블루프린트: 정규 표현식을 사용한 토큰화NLTK를 사용한 토큰화토큰화를 위한 권장 사항스파시를 통한 언어 처리파이프라인 인스턴스화텍스트 처리블루프린트: 토큰화 커스터마이징블루프린트: 중지 단어로 작업하기블루프린트: 품사를 기반으로 한 렘마 추출하기블루프린트: 명사 구문 추출하기블루프린트: 명명된 엔티티 추출대규모 데이터 세트의 특징 추출블루프린트: 하나의 함수로 모든 것을 얻기블루프린트: 대규모 데이터 세트에서 spaCy 사용결과 유지실행 시간에 대한 참고 사항더 많은 정보가 있습니다.언어 감지맞춤법 검사토큰 정규화마무리 발언 및 권장 사항
5. 기능 엔지니어링 및 구문 유사성
학습할 내용과 구축할 내용실험을 위한 장난감 데이터 세트블루프린트: 나만의 벡터라이저 구축하기어휘 열거하기문서 벡터화문서 용어 매트릭스유사도 매트릭스단어 가방 모델블루프린트: scikit-learn의 CountVectorizer 사용블루프린트: 유사도 계산하기TF-IDF 모델TfidfTransformer로 최적화된 문서 벡터ABC 데이터 세트 소개블루프린트: 피처 치수 줄이기블루프린트: 기능을 더 구체화하여 기능 개선하기블루프린트: 문서 벡터화에 단어 대신 렘마를 사용하기청사진: 단어 유형 제한청사진: 가장 일반적인 단어 제거블루프린트: N-Gram을 통한 컨텍스트 추가ABC 데이터 세트의 구문 유사성청사진: 만들어진 헤드라인과 가장 유사한 헤드라인 찾기청사진: 대규모 코퍼스에서 가장 유사한 문서 두 개 찾기(훨씬 더 어려운 문제)청사진: 관련 단어 찾기구문 유사성과 같은 장기 실행 프로그램을 위한 팁요약 및 결론
6. 텍스트 분류 알고리즘
학습할 내용과 구축할 내용Java 개발 도구 버그 데이터세트 소개청사진: 텍스트 분류 시스템 구축1단계: 데이터 준비2단계: 교육-테스트 분할3단계: 머신러닝 모델 학습4단계: 모델 평가텍스트 분류를 위한 최종 청사진블루프린트: 교차 검증을 사용하여 현실적인 정확도 지표 추정하기블루프린트: 그리드 검색으로 하이퍼파라미터 튜닝 수행하기블루프린트 요약 및 결론맺음말추가 읽기
7. 텍스트 분류기를 설명하는 방법
학습할 내용과 구축할 내용블루프린트: 예측 확률을 사용하여 분류 신뢰도 결정하기블루프린트: 예측 모델의 기능 중요도 측정하기블루프린트: LIME을 사용하여 분류 결과 설명하기블루프린트: ELI5를 사용하여 분류 결과 설명하기청사진: 앵커를 사용하여 분류 결과 설명하기마스크 단어와 함께 분포 사용실제 단어로 작업하기맺음말
8. 비지도 방법: 토픽 모델링 및 클러스터링
학습할 내용과 구축할 내용데이터 세트 유엔 일반 토론말뭉치 통계 확인준비 사항음수 행렬 인수분해(NMF)블루프린트: 문서용 NMF를 사용하여 토픽 모델 만들기블루프린트: NMF를 사용하여 단락에 대한 토픽 모델 만들기잠재 의미 분석/색인블루프린트: SVD로 단락에 대한 토픽 모델 만들기잠재 디리클레 할당블루프린트: LDA로 단락에 대한 토픽 모델 만들기블루프린트: LDA 결과 시각화하기블루프린트: 워드 클라우드를 사용하여 토픽 모델 표시 및 비교하기청사진: 문서의 토픽 분포와 시간 진화 계산하기토픽 모델링에 Gensim 사용블루프린트: Gensim용 데이터 준비블루프린트: Gensim으로 음의 행렬 인수분해 수행하기블루프린트: Gensim에서 LDA 사용블루프린트: 일관성 점수 계산하기청사진: 최적의 토픽 수 찾기블루프린트: Gensim으로 계층적 디리클레트 프로세스 만들기블루프린트: 클러스터링을 사용하여 텍스트 데이터의 구조 파악하기추가 아이디어요약 및 권장 사항결론
9. 텍스트 요약
학습할 내용과 구축할 내용텍스트 요약추출 방법데이터 전처리블루프린트: 주제 표현을 사용하여 텍스트 요약하기TF-IDF 값으로 중요 단어 식별하기LSA 알고리즘블루프린트: 인디케이터 표현을 사용한 텍스트 요약하기텍스트 요약 방법의 성능 측정하기블루프린트: 머신 러닝을 사용한 텍스트 요약1단계: 대상 레이블 만들기2단계: 모델 예측을 지원하는 기능 추가하기3단계: 머신 러닝 모델 구축맺음말추가 읽기

10. 단어 임베딩으로 의미 관계 탐색하기
학습할 내용과 구축할 내용시맨틱 임베딩의 경우단어 임베딩단어 임베딩을 사용한 유추 추론임베딩 유형블루프린트: 사전 학습된 모델에서 유사도 쿼리 사용사전 학습된 모델 로드유사성 쿼리자체 임베딩 교육 및 평가를 위한 블루프린트데이터 준비블루프린트: Gensim을 사용한 훈련 모델블루프린트: 다양한 모델 평가하기임베딩 시각화를 위한 블루프린트블루프린트: 차원 축소 적용하기블루프린트: TensorFlow 임베딩 프로젝터 사용하기블루프린트: 유사도 트리 구성하기맺음말추가 읽기
11. 텍스트 데이터에 대한 감정 분석 수행
학습할 내용과 구축할 내용감정 분석아마존 고객 리뷰 데이터 세트 소개청사진: 어휘 기반 접근 방식을 사용하여 감정 분석 수행하기빙 리우 사전어휘 기반 접근 방식의 단점지도 학습 접근 방식지도 학습 접근 방식을 위한 데이터 준비하기블루프린트 텍스트 데이터 벡터화 및 지도 머신러닝 알고리즘 적용하기1단계: 데이터 준비2단계: 교육-테스트 분할3단계: 텍스트 벡터화4단계: 머신러닝 모델 학습Deep Learning을 사용한 사전 학습된 언어 모델딥러닝 및 전이 학습블루프린트: 전이 학습 기법과 사전 학습된 언어 모델 사용하기1단계: 모델 로드 및 토큰화2단계: 모델 교육3단계: 모델 평가맺음말추가 읽기
12. 지식 그래프 구축
학습할 내용과 구축할 내용지식 그래프정보 추출데이터 세트 소개네임드 엔티티 인식블루프린트: 규칙 기반 네임드 엔티티 인식 사용블루프린트: 명명된 엔티티 정규화엔티티 토큰 병합핵심 참조 해상도블루프린트: 스파시의 토큰 확장 사용블루프린트: 별칭 확인 수행블루프린트: 이름 변형 해결블루프린트: NeuralCoref로 아나포라 해상도 수행하기이름 정규화엔티티 연결블루프린트: 동시 발생 그래프 만들기문서에서 동시 발생 추출하기Gephi로 그래프 시각화하기관계 추출블루프린트: 구문 일치를 사용하여 관계 추출블루프린트: 종속성 트리를 사용하여 관계 추출하기지식창고 만들기결과를 맹목적으로 신뢰하지 마세요맺음말추가 읽기
13. 프로덕션에서 텍스트 분석 사용
학습할 내용과 구축할 내용블루프린트: Conda를 사용하여 재현 가능한 Python 환경 만들기블루프린트: 컨테이너를 사용하여 재현 가능한 환경 만들기블루프린트: 텍스트 분석 모델을 위한 REST API 만들기블루프린트 Cloud 제공자를 사용하여 API 배포 및 확장하기블루프린트 빌드 자동 버전 관리 및 배포맺음말추가 읽기
색인

Content preview from Python을 사용한 텍스트 분석을 위한 청사진

7장. 텍스트 분류기를 설명하는 방법

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

이전 장에서 우리는 비정형 텍스트 데이터에 대한 고급 분석 방법에 대해 많이 배웠습니다. 통계부터 시작하여 NLP를 사용하여 텍스트에서 흥미로운 인사이트를 발견했습니다.

분류를 위해 지도 분류 방법을 사용하여 학습 알고리즘을 통해 이미 주어진 카테고리에 텍스트 문서를 할당했습니다. 분류 프로세스의 품질을 확인했지만 중요한 측면을 건너뛰었습니다. 모델이 텍스트에 카테고리를 할당하기로 결정한 이유를 알 수 없다는 것입니다.

카테고리가 정확하다면 이것은 중요하지 않게 들릴 수 있습니다. 그러나 일상 생활에서 우리는 종종 자신의 결정을 설명하고 다른 사람들에게 투명하게 설명해야 합니다. 머신러닝 알고리즘도 마찬가지입니다.

실제 프로젝트에서는 "알고리즘이 왜 이 카테고리/감성을 할당했나요?"라는 질문을 자주 듣게 됩니다. 그 전에라도 알고리즘이 어떻게 학습했는지 이해하면 다른 알고리즘을 사용하고, 기능을 추가하고, 가중치를 변경하는 등의 방법으로 분류를 개선하는 데 도움이 됩니다. 정형 데이터에 비해 텍스트는 사람이 텍스트 자체를 해석할 수 있기 때문에 이러한 질문이 훨씬 더 중요합니다. 또한 텍스트에는 이메일의 서명과 같은 많은 아티팩트가 있으므로 이를 피하고 분류의 주요 특징이 되지 않도록 하는 것이 좋습니다.

기술적 관점 외에도 몇 가지 법적 측면을 염두에 두어야 합니다. 알고리즘이 편향되지 않았거나 차별하지 않는다는 사실을 입증할 책임이 있을 수 있습니다. 유럽연합의 GDPR에서는 공공 웹사이트에서 특정 종류의 결제만 허용하는 등의 결정을 내리는 알고리즘에 대해서도 이를 요구하고 있습니다.

마지막으로, 신뢰에는 정보가 필요합니다. 결과를 최대한 투명하게 공개하면 누군가가 여러분의 방법에 대해 갖는 신뢰와 믿음이 엄청나게 높아질 것입니다.

학습할 내용과 구축할 내용

이 장에서는 지도 머신러닝 모델의 결과를 설명하는 몇 가지 방법을 살펴보겠습니다. 가능한 경우 이전 장에서 설명한 분류 예제를 기반으로 합니다.

6장의 버그 신고 분류를 다시 살펴보는 것부터 시작하겠습니다. 일부 보고서는 올바르게 분류되었지만 일부는 그렇지 않았습니다. 한 걸음 물러나서 분류가 항상 이분법적인 결정인지 분석해 보겠습니다. 일부 모델의 경우 그렇지 않은 경우도 있으며, 특정 클래스에 속하는 버그 보고서의 확률을 계산하여 정확한 값(소위 기준 진실)으로 확인하겠습니다.

다음 섹션에서는 어떤 기능이 모델 결정에 영향을 미쳤는지 분석해 보겠습니다. 이를 서포트 벡터 머신을 사용하여 계산할 수 있습니다. 결과를 해석하고 그 지식을 사용하여 방법을 개선할 수 있는지 살펴보겠습니다.

이후에는 좀 더 일반적인 접근 방식을 취하여 로컬 해석 가능한 모델 불가지론적 설명 (LIME)을 소개합니다. LIME은 특정 머신러닝 모델에 (거의) 구애받지 않으며 많은 알고리즘의 결과를 설명할 수 있습니다.

최근 몇 년 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

밑바닥부터 시작하는 데이터 과학 데이터 분석을 위한 파이썬 프로그래밍과 수학·통계 기초

Publisher Resources

ISBN: 9798341655997

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Python을 사용한 텍스트 분석을 위한 청사진

by Jens Albrecht, Sidharth Ramachandran, Christian Winkler

7장. 텍스트 분류기를 설명하는 방법

학습할 내용과 구축할 내용

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.