서문
이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com
대규모 언어 모델(LLMs)은 인터넷 혁명과 마찬가지로 놀라울 정도로 짧은 시간 안에 단순한 연구 대상에서 생산에 필수적인 인프라로 자리 잡았습니다. 에이전트 중심의 세상이 다가오고 있으며, 여러 면에서 이미 우리 곁에 와 있습니다. 바로 '토큰화' 의 새로운 물결로, 점점 더 많은 애플리케이션이 기존의 API나 서비스 대신 LLM 인프라를 기반으로 구축되고 있습니다.
불과 몇 년 만에 OpenAI와 같은 공개 LLM 제공업체에 대한 “그냥 API를 호출하면 된다”는 인식은 “우리만의 모델이 필요하다”로, 그리고 “이 모델들을 효율적이고 안전하게, 대규모로 운영해야 한다”로 진화했습니다. 이제 기업들은 데이터 거버넌스, 문제 해결, 평가, 규정 준수, 비용 관리를 위해 LLMs에 대해 훨씬 더 많은 통제권을 필요로 합니다. 많은 팀이 생성형 AI(GenAI)에서 가장 어려운 부분은 모델 훈련이나 채팅 UI 구축이 아니라, 그 사이의 모든 과정—즉, 합리적인 비용으로 비즈니스 목표를 달성할 수 있는 모델 서빙 및 최적화 설정—이라는 사실을 깨달았습니다.
우리는 그 격차를 가까이서 지켜봐 왔습니다. 뛰어난 프로토타입이 실제 트래픽을 감당하지 못하고 무너지거나, 일주일 만에 GPU 예산을 모두 소진하는 모습을 목격했습니다. 우리는 LLMs의 핵심 사용 사례를 재구축하고자 하는 열의가 넘치는 조직들이, 공개 API 비용과 데이터 안전성에 대한 우려로 인해 발이 묶이는 모습을 목격했습니다. 또한 핵심 제품에 LLMs을 깊이 통합하고 싶어 하면서도, 지연 시간, 처리량, 비용을 어떻게 고려해야 할지, 혹은 공개 벤더, 모델 서빙 라이브러리, Cloud 엔드포인트, 또는 자체 관리형 서비스 중 무엇을 선택해야 할지 같은 복잡성 때문에 주저하는 팀들을 보았습니다.
동시에, LLM 서빙 및 최적화에 대한 지식은 블로그 게시물, 연구 논문, 프레임워크 문서, 비공식적인 운영 경험담 등에 흩어져 있습니다. 이 분야는 매주 또는 매달 진화하고 있어 따라잡기조차 어렵고, 어디서부터 시작해야 할지 알기는 더욱 어렵습니다. 부족한 것은 체계적인 기초, 즉 핵심 개념을 이해하여 생태계가 변화함에 따라 계속 탐구할 수 있도록 돕는 실용적인 종단간(end-to-end) 리소스입니다.
이것이 바로 우리가 집필하고자 했던 책입니다.
왜 LLM 서빙과 최적화인가?
멀리서 보면 LLM 서빙은 기존의 머신러닝 배포를 넘어선 다음 단계처럼 보일 수 있습니다. 하지만 실제로 LLM은 특이한 존재입니다. LLM은 새로운 물리적 특성, 새로운 경제성, 새로운 이해관계를 동반한 근본적으로 다른 문제를 제기하며, 바로 그 때문에 독자적인 학문 분야로 다뤄져야 합니다.
전통적인 머신러닝(ML) 모델은 일반적으로 상태가 없고, 바운디드하며, 예측 가능합니다. 입력을 보내고, 고정된 계산 그래프를 실행하면 결과를 얻습니다. 지연 시간은 안정적이며, 메모리 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access