제5장. LLMs 서비스 제공 시의과제
이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com
지금까지 이 책에서는 모델 서빙의 핵심 개념을 설명하고, ML 모델 서빙을 위한 여러 아키텍처 패턴을 제시하며, 대규모 모델 배포 시 발생하는 장단점을 분석했습니다. 이제 독자 여러분은 모델 서빙 패러다임에 대해 충분히 이해하셨기를 바랍니다. 왜냐하면 이제 우리는 완전히 다른 영역으로 한 걸음 더 나아가려 하기 때문입니다. 이 장에서는 AI 분야에서 가장 빠르게 성장하는 분야 중 하나인, 서빙을 위한 LLMs 최적화에 초점을 맞출 것입니다.
2022년 말 ChatGPT의 등장 이후, LLMs은 챗봇과 코드 생성부터 고급 추론 및 의사결정 시스템에 이르기까지 실제 시나리오에서 AI가 적용되는 방식을 혁신적으로 변화시켰습니다. 그러나 LLMs의 방대한 규모, 막대한 계산 자원 요구, 그리고 독특한 서빙 요구사항은 기존의 모델 서빙 기법으로는 해결하기 어려운 과제를 제기합니다. 새로운 아이디어부터 널리 채택된 프레임워크에 이르기까지, 더 빠르고 효율적인 서빙 성능을 위해 LLMs을 최적화하는 분야는 전례 없는 속도로 발전해 왔습니다. 이는 다소 부담스러울 수 있습니다. 이 분야에 익숙하지 않은 사람이라면 쉽게 압도당할 수 있습니다. 예를 들어:
-
기술 블로그를 읽다 보면 이런 의문이 들 수 있습니다. “불과 1~2년 만에 인기를 얻고 이미 수많은 곳에서 채택된 이 vLLM 프레임워크는 도대체 무엇일까?”
-
연구 논문을 읽다 보면 “FlashAttention은 어떻게 작동하며, LLM 추론을 가속화하기 위해 하드웨어 수준에서 이를 어떻게 최적화할 수 있을까?”라고 질문할 수도 있습니다.
-
AI 뉴스를 접하다 보면 MLA라는 새로운 용어를 마주치며 “DeepSeek V3 모델은 서빙 단계에서 다른 어텐션 메커니즘보다 얼마나 더 효율적으로 실행될까?”라고 궁금해할 수 있습니다.
다음 장들에서 우리는 이러한 모든 발전 사항을 소개할 것입니다. 하지만 각 기법을 다루기 전에, 탄탄한 기초 지식을 확립하고 기본 개념에서 점차 더 복잡한 기법으로 넘어가야 합니다. 이 장은 이전 장에서 살펴본 모든 서빙 개념, 원칙, 패러다임과 향후 장에서 다룰 모든 고급 LLM 최적화 기법 사이의 가교 역할을 합니다.
먼저 LLM 서빙의 전반적인 현황을 이해해야 합니다. 즉, 왜 중요한지, 하드웨어 요구 사항은 무엇인지, 그리고 모델 최적화에 대한 직관을 어떻게 형성할지 파악해야 합니다. 구체적으로, 왜 LLM을 효율적으로 서빙하는 것이 애플리케이션과 비즈니스의 성공에 초기 단계부터 결정적일 수 있는지 다룰 것입니다. 다음으로 LLM 서빙에서 최신 하드웨어의 역할을 살펴보고, GPU와 같은 AI 가속기를 탐구하여 메모리의 복잡한 구조, 연산 능력, 상호 연결 기능을 이해합니다. 그 후 다음 내용을 다룰 것입니다:
-
LLM 서빙의 주요 병목 현상과 이를 완화하는 방법
-
서빙을 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access