
277
9
장
추론 최적화
추론 최적화
9
CHAPTER
앞선 몇 개 장에서는
LLM
을 특정 작업에 맞게 조정하고 활용하는 여러 가지 방법을 살펴봤습
니다. 이번 장에서는 이러한 모델을 실제 환경에서 어떻게 효율적으로 추론
1
할 수 있을지를 다
룹니다.
LLM
은 크기가 매우 크므로 이를 배포하고 추론하는 과정에서 연산 자원, 메모리, 에너
지 소비 측면에서 큰 부담이 따릅니다. 특히 모바일 기기와 같은 엣지 디바이스에서는 이러한
제약이 더 두드러집니다.
이번 장에서는 추론 최적화라는 주제에 초점을 맞춰
LLM
의 추론 시간을 좌우하는 주요 요인을
살펴보고 이를 개선하는 다양한 최적화 기법을 소개합니다. 여기에는 캐싱
caching
, 지식 증류, 조
기 종료
early
exiting
, 양자화, 병렬 디코딩과 예측 디코딩 등 여러 기법이 포함됩니다.
9.1
LLM
추론의 도전 과제
LLM
의 추론 성능을 저해하는 주요 병목 요인은 무엇일까요? 잘 알려졌듯이,
LLM
의 막대한 규
모는 방대한 연산과 메모리 자원을 요구합니다. 여기에 더해 다음 두 가지 요소가 문제를 더 복
잡하게 합니다.
1
옮긴이_ 앞장에서 다뤘던 추론은
reasoning
이고 이 장에서 다루는 추론은
inference
에 해당합니다. 두 용어 모두 모두 추론이라고 번역
되는데
reasoning
은 인간의 사고 과정과