7장. 텍스트 분류기를 설명하는 방법
이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com
이전 장에서 우리는 비정형 텍스트 데이터에 대한 고급 분석 방법에 대해 많이 배웠습니다. 통계부터 시작하여 NLP를 사용하여 텍스트에서 흥미로운 인사이트를 발견했습니다.
분류를 위해 지도 분류 방법을 사용하여 학습 알고리즘을 통해 이미 주어진 카테고리에 텍스트 문서를 할당했습니다. 분류 프로세스의 품질을 확인했지만 중요한 측면을 건너뛰었습니다. 모델이 텍스트에 카테고리를 할당하기로 결정한 이유를 알 수 없다는 것입니다.
카테고리가 정확하다면 이것은 중요하지 않게 들릴 수 있습니다. 그러나 일상 생활에서 우리는 종종 자신의 결정을 설명하고 다른 사람들에게 투명하게 설명해야 합니다. 머신러닝 알고리즘도 마찬가지입니다.
실제 프로젝트에서는 "알고리즘이 왜 이 카테고리/감성을 할당했나요?"라는 질문을 자주 듣게 됩니다. 그 전에라도 알고리즘이 어떻게 학습했는지 이해하면 다른 알고리즘을 사용하고, 기능을 추가하고, 가중치를 변경하는 등의 방법으로 분류를 개선하는 데 도움이 됩니다. 정형 데이터에 비해 텍스트는 사람이 텍스트 자체를 해석할 수 있기 때문에 이러한 질문이 훨씬 더 중요합니다. 또한 텍스트에는 이메일의 서명과 같은 많은 아티팩트가 있으므로 이를 피하고 분류의 주요 특징이 되지 않도록 하는 것이 좋습니다.
기술적 관점 외에도 몇 가지 법적 측면을 염두에 두어야 합니다. 알고리즘이 편향되지 않았거나 차별하지 않는다는 사실을 입증할 책임이 있을 수 있습니다. 유럽연합의 GDPR에서는 공공 웹사이트에서 특정 종류의 결제만 허용하는 등의 결정을 내리는 알고리즘에 대해서도 이를 요구하고 있습니다.
마지막으로, 신뢰에는 정보가 필요합니다. 결과를 최대한 투명하게 공개하면 누군가가 여러분의 방법에 대해 갖는 신뢰와 믿음이 엄청나게 높아질 것입니다.
학습할 내용과 구축할 내용
이 장에서는 지도 머신러닝 모델의 결과를 설명하는 몇 가지 방법을 살펴보겠습니다. 가능한 경우 이전 장에서 설명한 분류 예제를 기반으로 합니다.
6장의 버그 신고 분류를 다시 살펴보는 것부터 시작하겠습니다. 일부 보고서는 올바르게 분류되었지만 일부는 그렇지 않았습니다. 한 걸음 물러나서 분류가 항상 이분법적인 결정인지 분석해 보겠습니다. 일부 모델의 경우 그렇지 않은 경우도 있으며, 특정 클래스에 속하는 버그 보고서의 확률을 계산하여 정확한 값(소위 기준 진실)으로 확인하겠습니다.
다음 섹션에서는 어떤 기능이 모델 결정에 영향을 미쳤는지 분석해 보겠습니다. 이를 서포트 벡터 머신을 사용하여 계산할 수 있습니다. 결과를 해석하고 그 지식을 사용하여 방법을 개선할 수 있는지 살펴보겠습니다.
이후에는 좀 더 일반적인 접근 방식을 취하여 로컬 해석 가능한 모델 불가지론적 설명 (LIME)을 소개합니다. LIME은 특정 머신러닝 모델에 (거의) 구애받지 않으며 많은 알고리즘의 결과를 설명할 수 있습니다.
최근 몇 년 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access