Skip to Content
Python을 사용한 텍스트 분석을 위한 청사진
book

Python을 사용한 텍스트 분석을 위한 청사진

by Jens Albrecht, Sidharth Ramachandran, Christian Winkler
May 2025
Beginner to intermediate
424 pages
7h 31m
Korean
O'Reilly Media, Inc.
Content preview from Python을 사용한 텍스트 분석을 위한 청사진

7장. 텍스트 분류기를 설명하는 방법

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

이전 장에서 우리는 비정형 텍스트 데이터에 대한 고급 분석 방법에 대해 많이 배웠습니다. 통계부터 시작하여 NLP를 사용하여 텍스트에서 흥미로운 인사이트를 발견했습니다.

분류를 위해 지도 분류 방법을 사용하여 학습 알고리즘을 통해 이미 주어진 카테고리에 텍스트 문서를 할당했습니다. 분류 프로세스의 품질을 확인했지만 중요한 측면을 건너뛰었습니다. 모델이 텍스트에 카테고리를 할당하기로 결정한 이유를 알 수 없다는 것입니다.

카테고리가 정확하다면 이것은 중요하지 않게 들릴 수 있습니다. 그러나 일상 생활에서 우리는 종종 자신의 결정을 설명하고 다른 사람들에게 투명하게 설명해야 합니다. 머신러닝 알고리즘도 마찬가지입니다.

실제 프로젝트에서는 "알고리즘이 왜 이 카테고리/감성을 할당했나요?"라는 질문을 자주 듣게 됩니다. 그 전에라도 알고리즘이 어떻게 학습했는지 이해하면 다른 알고리즘을 사용하고, 기능을 추가하고, 가중치를 변경하는 등의 방법으로 분류를 개선하는 데 도움이 됩니다. 정형 데이터에 비해 텍스트는 사람이 텍스트 자체를 해석할 수 있기 때문에 이러한 질문이 훨씬 더 중요합니다. 또한 텍스트에는 이메일의 서명과 같은 많은 아티팩트가 있으므로 이를 피하고 분류의 주요 특징이 되지 않도록 하는 것이 좋습니다.

기술적 관점 외에도 몇 가지 법적 측면을 염두에 두어야 합니다. 알고리즘이 편향되지 않았거나 차별하지 않는다는 사실을 입증할 책임이 있을 수 있습니다. 유럽연합의 GDPR에서는 공공 웹사이트에서 특정 종류의 결제만 허용하는 등의 결정을 내리는 알고리즘에 대해서도 이를 요구하고 있습니다.

마지막으로, 신뢰에는 정보가 필요합니다. 결과를 최대한 투명하게 공개하면 누군가가 여러분의 방법에 대해 갖는 신뢰와 믿음이 엄청나게 높아질 것입니다.

학습할 내용과 구축할 내용

이 장에서는 지도 머신러닝 모델의 결과를 설명하는 몇 가지 방법을 살펴보겠습니다. 가능한 경우 이전 장에서 설명한 분류 예제를 기반으로 합니다.

6장의 버그 신고 분류를 다시 살펴보는 것부터 시작하겠습니다. 일부 보고서는 올바르게 분류되었지만 일부는 그렇지 않았습니다. 한 걸음 물러나서 분류가 항상 이분법적인 결정인지 분석해 보겠습니다. 일부 모델의 경우 그렇지 않은 경우도 있으며, 특정 클래스에 속하는 버그 보고서의 확률을 계산하여 정확한 값(소위 기준 진실)으로 확인하겠습니다.

다음 섹션에서는 어떤 기능이 모델 결정에 영향을 미쳤는지 분석해 보겠습니다. 이를 서포트 벡터 머신을 사용하여 계산할 수 있습니다. 결과를 해석하고 그 지식을 사용하여 방법을 개선할 수 있는지 살펴보겠습니다.

이후에는 좀 더 일반적인 접근 방식을 취하여 로컬 해석 가능한 모델 불가지론적 설명 (LIME)을 소개합니다. LIME은 특정 머신러닝 모델에 (거의) 구애받지 않으며 많은 알고리즘의 결과를 설명할 수 있습니다.

최근 몇 년 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

밑바닥부터 시작하는 데이터 과학 데이터 분석을 위한 파이썬 프로그래밍과 수학·통계 기초

밑바닥부터 시작하는 데이터 과학 데이터 분석을 위한 파이썬 프로그래밍과 수학·통계 기초

Joel Grus, Hangyeol Kim, Seongju Ha, Eunjung Park
R을 활용한 데이터 과학

R을 활용한 데이터 과학

Hadley Wickham, Garrett Grolmund, Seolgi Kim, Hyemin Choi

Publisher Resources

ISBN: 9798341655997