5장. 텍스트 분석을 위한 분류
이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com
1990년대 후반 대형 이메일 제공업체 중 한 곳에서 일하면서 전 세계 서버에서 점점 더 많은 양의 이메일을 처리하고 있다고 상상해 보세요. 이메일의 보급과 경제성으로 인해 이메일은 주요 커뮤니케이션 수단으로 자리 잡았고 비즈니스는 호황을 누리고 있었습니다. 하지만 안타깝게도 정크 이메일의 증가도 함께 증가했습니다. 무해한 인터넷 제품 광고도 있지만, 서버에 심각한 부담을 주는 대량으로 전송되는 광고도 있습니다. 또한 이메일은 규제를 받지 않기 때문에 허위 광고, 다단계 사기, 가짜 투자 등 유해한 메시지가 점점 더 많아지고 있습니다. 어떻게 해야 할까요?
스패머의 이메일 주소 또는 IP 주소를 블랙리스트에 추가하거나 스팸 이메일임을 나타내는 키워드를 검색하는 것으로 시작할 수 있습니다. 안타깝게도 새로운 이메일이나 IP 주소를 얻는 것이 비교적 쉽기 때문에 스패머는 아무리 잘 선별된 블랙리스트도 빠르게 우회합니다. 더 큰 문제는 블랙리스트와 화이트리스트가 유효한 이메일을 제대로 처리하지 못해 사용자들의 불만을 사고 있다는 점입니다. 더 나은 솔루션, 대규모로 작동하는 유연하고 확률적인 솔루션이 필요하다면 바로 머신 러닝을 도입하세요.
수십 년 전으로 거슬러 올라가면 스팸 필터링은 가장 일반적이고 상업적으로 가장 성공적인 텍스트 분류 모델입니다. 핵심적인 혁신은 이메일의 콘텐츠가 스팸 여부를 판단하는 주요 기준이 되었다는 점입니다. 단순히 "viagra" 또는 "Nigerian prince" 이라는 용어의 존재 여부가 아니라 문맥, 빈도, 맞춤법 오류 등이 스팸 여부를 판단하는 기준이 됩니다. 스팸 이메일과 스팸 이메일의 코퍼스 수집을 통해 나이브 베이즈 모델, 즉 단어의 빈도에 따라 스팸 이메일과 스팸 이메일에 해당 단어가 포함될 확률을 예측하는 모델을 구축할 수 있었습니다.
이 장에서는 먼저 몇 가지 실제 분류 사례를 살펴봄으로써 이러한 문제를 애플리케이션에 맞게 공식화하는 방법을 살펴봅니다. 그런 다음 분류기 워크플로를 살펴보고 4장에서 설명한 벡터화 방법론을 확장하여 2장에서 소개한 Baleen 코퍼스를 사용해 토픽 분류를 위한 모델링 파이프라인을 만들 것입니다. 마지막으로, 지금까지 구축한 기초 데이터 레이어 위에 직접 구축하는 워크플로우의 다음 단계를 살펴보겠습니다. 이러한 다음 단계는 1장에서 소개한 '모델 선택 3단계' 의 맥락에서 설명하겠습니다.
텍스트 분류
분류는 텍스트 분석의 기본 형태이며 다양한 영역과 애플리케이션에서 널리 사용됩니다. 분류의 전제는 범주형 대상 변수가 주어지면 독립 변수로 구성된 인스턴스 사이에 존재하는 패턴과 대상과의 관계를 학습하는 간단한 방식입니다. 목표가 미리 주어지기 때문에 훈련 데이터에서 예측된 범주와 실제 범주 사이의 오차를 최소화하도록 모델을 훈련할 수 있기 때문에 분류를 지도 머신 러닝이라고 합니다. 분류 모델이 적합해지면 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access