
278
2
부
LLM 활용하기
●
4
장에서 설명했듯이, 최신
LLM
은 대부분 디코더 전용 모델 구조를 기반으로 하며 자기회귀 방식으로 동작합
니다. 즉, 각 토큰이 순차적으로 하나씩 생성되므로 처리 과정에 순차적인 제약이 발생합니다. 이번 장의 후반
에서는 이러한 디코딩 속도를 높이는 병렬 디코딩과 예측 디코딩 기법을 살펴보겠습니다.
●
입력 시퀀스의 길이가 길어질수록 필요한 연산량은 제곱 비례로 증가합니다. 이에 대응하는 방법으로는
K
-
V
캐싱
key
-
value
caching
같은 기술이 있으며, 이 장에서 자세히 다룰 예정입니다.
이제 본격적으로 추론을 최적화하는 기법들을 하나씩 살펴보겠습니다.
9.2
추론 최적화 기법
실제 환경에서
LLM
을 배포할 때 비용, 속도, 자원 소모 측면에서 막대한 부담을 주기 때문에
산업계와 학계의 주요 연구소에서는 추론 최적화에 관한 연구에 많은 관심을 기울여 왔습니다.
최근 몇 년간 수십 가지에 이르는 최적화 기법이 개발되었으며 이러한 기술이 없었다면 오늘날
처럼
LLM
을 광범위하게 활용할 수 없었을 것입니다. 다양한 추론 최적화 기법을 포괄적으로
정리한 자료로는 저우 연구진의 조사 논문
2
이 있습니다.
이제부터는 실제
LLM
배포에서 사용되는 매우 효과적이고 가능성이 높은 추론 최적화 기법들
에 집중하겠습니다. 이러한 기법을 ...