제8장. LLM 서빙 프레임워크
이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com
이전 장들에서 우리는 LLM 서빙의기초—시스템 설계, 서비스 구현, 그리고 실용적인 최적화 기법—을 살펴보았습니다. 이번 장에서는 실제 운영 환경의 제약 조건 하에서 다양한 최적화 기법을 사용하여 모델 추론을 구현하고 실행하는 서빙 프레임워크, 즉 기반 계층으로 주제를 전환합니다. 실제 현장에서 접할 가능성이 높은, 널리 채택된 네 가지 오픈소스 서빙 프레임워크인 vLLM, TensorRT-LLM, SGLang, llama.cpp에 대해 논의할 것입니다. 각 프레임워크는 고유한 철학, 하드웨어 요구 사항, 실전에서 검증된 기술을 갖추고 있으며, 활발한 커뮤니티와 점차 확대되는 실제 운영 환경에서의 활용을 바탕으로 하고 있습니다.
가장 광범위하게 적용되는 프레임워크인 vLLM을 심층적으로 살펴보겠습니다. 아키텍처, 초기화 및 모델 실행 프로세스, 요청 및 토큰 수준 스케줄링, 계층적 최적화 전략 등을 다룰 것입니다. vLLM의 내부 구조를 이해하면 LLM 프레임워크가 실제로 어떻게 작동하는지에 대한 확실한 직관을 얻을 수 있으며, 다른 프레임워크의 장단점을 평가하는 데도 도움이 될 것입니다.
다음으로, 나머지 프레임워크들에 대해 간결하고 의사결정에 중점을 둔 개요와 짧은 예제를 통해 다룰 것입니다. 이 장은 서빙 프레임워크를 비교하는 데 사용하는 평가 방법으로 마무리하겠습니다.
이 장을 읽은 후에는 LLM 서빙 프레임워크가 무엇인지, 왜 필요한지, 내부적으로 어떻게 작동하는지, 그리고 자신의 사용 사례에 맞게 어떻게 평가해야 하는지에 대해 확실하게 이해하게 될 것입니다. 다음 장에서는 최적화 기법과 서빙 프레임워크를 실제로 적용하여 vLLM 서빙 프레임워크를 통해 LLM 성능을 튜닝해 보겠습니다.
왜 전용 LLM 서빙 프레임워크가 필요한가
LLM 시대가 도래하기 전에도 TensorFlow Serving, TorchServe와 같은 범용 모델 서빙 프레임워크는 물론 NVIDIA Triton과 같은 일반화된 추론 플랫폼도 이미 많이 존재했습니다. 이러한 프레임워크와 플랫폼은 원래 이미지 인식이나 구조화된 데이터 추론과 같은 Deep Learning 워크로드를 위해 설계되었습니다. 이러한 워크로드는 일반적으로 입력 크기가 작고, 텐서 형태가 고정되어 있으며, 예측 가능한 지연 시간 요구 사항을 갖습니다. 또한 주된 최적화 방식은 대개 배치 처리입니다.
이 책의 이 단계에 이르러서는, LLM 서빙이 이미지 분류기나 추천 모델과 같은 기존의 머신러닝 모델 서빙과는 근본적으로 다르다는 점이 분명해졌을 것입니다. LLM 서빙과 최적화는 다음과 같은 새로운 일련의 과제를 제기합니다:
- 자율 회귀 생성
-
LLMs은 토큰 단위로 출력을 생성합니다. 이미지 모델과 달리 추론 세션은 몇 초에서 몇 분 동안 열려 있을 수 있습니다.
- 컨텍스트 길이 폭발
-
모델은 몇 개의 토큰에서 수십만 개, ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access