197
5
장
텍스트 클러스터링과 토픽 모델링
5.4
요약
생성
LLM
과 표현
LLM
을 비지도 학습 분야에 어떻게 사용할 수 있는지 살펴보았습니다. 분류
와 같은 지도 학습 방법이 최근 몇 년간 널리 사용되었지만 텍스트 클러스터링 같은 비지도 학
습 방법은 엄청난 잠재력을 가지고 있습니다. 레이블이 없어도 콘텐츠 의미를 기반으로 텍스트
를 그룹화할 수 있기 때문입니다.
입력 텍스트를 수치 표현으로 바꾸는 임베딩으로 시작해서 텍스트 문서를 클러스터링하는 일
반적인 파이프라인을 다루었습니다. 그다음 클러스터링 결과를 개선하기 위해 차원 축소를 임
베딩에 적용하여 고차원 데이터를 단순화했습니다. 마지막으로 차원 축소된 임베딩에 클러스
터링 알고리즘을 적용해 입력 텍스트를 클러스터로 모았습니다. 클러스터를 직접 조사하면 그
안에 포함된 문서와 클러스터를 이해하는 데 도움이 됩니다.
직접 조사 방식에서 벗어나
BERTopic
이 클러스터를 자동으로 표현함으로써 클러스터링 파이
프라인을 확장하는 방법을 알아보았습니다. 이런 방법을 일컬어 종종 토픽 모델링이라 합니다.
대량의 문서에서 토픽을 나타내는 키워드를 찾아내는 방법입니다.
BERTopic
은
c
-
TF
-
IDF
를 사용한
BoW
방식으로 토픽 표현을 생성합니다.
c
-
TF
-
IDF
는 클러스터 관련성과 그 외
모든 클러스터에 대한 빈도를 기반으로 단어에 가중치를 부여합니다.
BERTopic
의 주요 장점은 모듈화된 구조입니다.
BERTopic
에서는 파이프라인에 어떤 모
델이든 선택할 수 있습니다. 이를 통해 동일한 ...