
363
12
장
검색 증강 생성(RAG)
●
모델이 지속적으로 사전 훈련되었거나 메모리 튜닝되었는가 :
7
장에서 설명한 대로, 모델이 특정 개념에 대해
지속적으로 사전 훈련이나 메모리 튜닝을 수행했으며 질의가 해당 개념과 관련이 있다면 검색 없이도 답변할
수 있습니다.
범용 질의응답에
LLM
을 사용하는 경우, 말렌 연구진은 위키백과와 같은 소스를 엔티티의 유
사 인기도 지표로 사용하는 방법을 제안합니다. 입력에 있는 엔티티가 위키백과에서 특정 임곗
값보다 많이 등장한다면
LLM
은
RAG
를 사용하지 않고 스스로 질문에 답할 수 있습니다. 임곗
값은
LLM
마다 다를 수 있으며, 이 전략은
LLM
이 사전 훈련된 데이터셋을 충분히 이해할 때만
효과적입니다.
언제 데이터를 검색할지 동적으로 결정하는 것은 모델의 지연 시간과 응답성을 최적화하는 데
도 도움이 됩니다.
RAG
파이프라인은 추가 오버헤드를 도입하기 때문입니다.
TIP
동적 검색은 주로 매우 큰
LLM
을 사용할 때 유용합니다. 작은 모델(
7B
이하)에서는 내부 메모리에 의존하는
것보다
RAG
를 사용하는 것이 대부분 더 나은 성능을 보입니다.
12.4
RAG
파이프라인
일반적인
RAG
애플리케이션은
11
장에서 논의한 검색기-판독기 프레임워크를 따릅니다. 질
의에 응답해 검색 모델이 질의에 답하는 데 관련된 문서를 식별합니다. ...