
330
3
부
LLM 애플리케이션 활용 패러다임
BM25
와 같은 여러 기법이 개발되어 검색 시스템을 발전시키는 데 중요한 역할을 했습니다.
이러한 기법은 제
12
장에서 자세히 다룰 예정입니다.
LLM
시대에는 임베딩 기반 검색 시스템
이 검색을 구현하는 표준 방식으로 자리 잡고 있습니다.
이번 장에서는 임베딩이 어떻게 작동하는지를 살펴보겠습니다. 의미적 유사도의 개념을 탐구
하고 다양한 유사도 측정 방법을 알아보겠습니다. 또한 널리 사용되는 임베딩 모델을 활용하는
방법과 성능을 평가하는 방법도 다루겠습니다. 특정 사용 사례와 도메인에 맞게 임베딩 모델을
파인 튜닝하는 방법도 살펴보겠습니다. 이어서 희소 오토인코더
sparse
autoencoder
(
SAE
)를 사용해
이러한 임베딩을 해석하는 방법을 알아보고, 마지막으로 저장 공간과 계산 비용을 줄이는 임베
딩 최적화 기법도 살펴보겠습니다.
11.1
임베딩 소개
표현 학습은 데이터의 의미 있는 특성을 포착하는 방식으로, 종종 저차원 공간에서 데이터를
표현하는 방법을 학습하는 머신러닝의 하위 분야입니다. 자연어 처리 맥락에서는 단어, 문장,
단락과 같은 텍스트 단위를 임베딩이라는 벡터 형태로 변환하는 작업을 의미합니다. 임베딩은
입력의 의미적 (의미 관련) 특성과 화용적 (사회적 맥락 관련 ) 특성을 포착합니다.
임베딩은 ...