
329
11
장
표현 학습과 임베딩
CHAPTER
11
표현 학습과 임베딩
이전 장에서는 언어 모델을 외부 도구, 특히 데이터 저장소와 어떻게 연동하는지를 살펴봤습니
다. 외부 데이터는 텍스트 파일, 데이터베이스 테이블, 지식 그래프 등의 형태로 존재할 수 있
습니다. 데이터는 독점적인 도메인별 지식베이스부터
LLM
이 생성한 중간 결과와 출력까지 매
우 다양한 콘텐츠 유형을 포함할 수 있습니다.
데이터가 관계형 데이터베이스에 저장된 구조화된 형태라면 언어 모델이 필요한 데이터를 검
색하는
SQL
쿼리를 발행할 수 있습니다. 그러나 데이터가 비구조화된 형태라면 어떻게 해야
할까요?
비구조화된 텍스트 데이터셋에서 데이터를 검색하는 방법으로 키워드 검색이나 정규 표현식을
사용할 수 있습니다. 예를 들어
10
장에서 살펴본 애플
CFO
사례에서는 재무 공시 텍스트 코
퍼스에서
CFO
가 언급된 텍스트를 찾아
CFO
의 입사일이나 재임 기간 정보를 얻을 수 있을 것
으로 기대할 수 있습니다. 다음과 같은 정규 표현식을 사용할 수 있습니다.
pattern = r”(?i)\b(?:C\.?F\.?O|Chief\s+Financial\s+Officer)\b”
하지만 키워드 검색은 효과가 제한적입니다. 코퍼스에
CFO
의 입사일이나 재임 기간이 포함되
었다고 하더라도 이를 표현하는 방법은 매우 다양해서 ...