제4장. 모델 서빙 모범 사례
이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com
제2장과 제3장에서는 구현부터 시스템 설계에 이르기까지 모델 추론에 대해 살펴보았습니다. 여러분은 LLMs가 내부적으로 어떻게 실행되는지, 그리고 기본 원리부터 서빙 서비스를 구축하는 방법을 확인했습니다. 이 장에서는 서빙 시스템을 구축하는 방법에서 벗어나, 실제 LLM 애플리케이션에서 서빙 시스템이 어떻게 진화해야 하는지에 초점을 맞춥니다.
현대적인 LLM 애플리케이션은 단일 요청-응답 모델 호출로 구성되는 경우가 거의 없습니다. 대신 모델은 에이전트 기반 워크플로, 엔터프라이즈 플랫폼, 계층화된 프로덕션 시스템 내에 내장됩니다. 이런 상황이 발생하면 모델 서빙은 단순한 추론 문제가 아니라 시스템 아키텍처 문제가 됩니다. 이 장에서는 시스템 수준에서 어떤 변화가 일어나는지 살펴봅니다.
우리는 에이전트 기반 애플리케이션( )부터 시작합니다. 이는 이 장이 ‘에이전트 장’이기 때문이 아니라, 에이전트가 이제 LLM 기반 시스템을 구축하는 주요 패턴이 되었기 때문입니다. 지식 어시스턴트, 코파일럿, 워크플로 자동화, 추론 엔진 등 대부분의 현대적인 LLM 사용 사례는 에이전트와 유사한 구조를 따릅니다. 단일 사용자 상호작용이 여러 LLM 호출, 검색 단계, 도구 실행, 반복적 추론을 유발할 수 있습니다. 이러한 행동들은 서빙 요구 사항을 근본적으로 재구성합니다.
에이전트는 토큰 사용량을 증가시키고, 연쇄 호출 전반에 걸쳐 테일 지연 시간을 증폭시키며, 동적인 컴퓨팅 패턴을 도입하고, 모델과 도구 전반에 걸친 오케스트레이션을 필요로 합니다. 이 책의 후반부에서 논의될 많은 서빙 최적화 기법—캐싱 전략, 배치 처리 방식, 메모리 관리, 스케줄링, 병렬 처리—은 바로 이러한 에이전트형 워크로드에서 비롯된 것입니다.
따라서 에이전트를 이해하는 것은 이 장의 아키텍처 모범 사례와 후속 장들의 최적화 기법 모두에 대한 올바른 맥락을 제공합니다. 작동하는 지식 에이전트의 핵심 구성 요소를 분석함으로써, LLM 서빙이 어떻게 지능적인 계획 수립, 도구 사용, 다단계 추론을 가능하게 하는지, 그리고 이것이 시스템 설계에 어떤 의미를 갖는지 보여줍니다.
이어서 시야를 넓혀 엔터프라이즈용 LLM 서빙 플랫폼을 위한 계층형 참조 아키텍처를 제시합니다. 이 프레임워크는 취미용 스택과 프로덕션급 시스템을 구분 짓는 필수 구성 요소와 운영상 고려 사항을 강조합니다. 여기서 서빙은 단순한 모델 실행을 넘어 오케스트레이션, 리소스 관리, 가시성, 거버넌스, 비용 통제를 포함합니다.
다음으로, 우리는 '자체 구축 대 Cloud' 선택을 이분법적 스위치가 아닌 스펙트럼으로 살펴봅니다. 목표는 한 가지 접근 방식을 다른 것보다 옹호하는 것이 아니라, 상황에 맞는 결정을 내릴 수 있는 멘탈 모델을 제공하는 것입니다. 팀들이 오픈 소스 스택과 관리형 서비스를 어떻게 결합하는지, 트래픽 및 비용 프로필이 변화함에 따라 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access