Skip to Content
LLM 서비스 및 최적화 실습하기 (Korean Edition)
book

LLM 서비스 및 최적화 실습하기 (Korean Edition)

by Chi Wang, Peiheng Hu
May 2026
Intermediate
374 pages
6h 40m
Korean
O'Reilly Media, Inc.
Content preview from LLM 서비스 및 최적화 실습하기 (Korean Edition)

제10장. LLM 서빙의발전

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

여기까지 읽어주신 분들께, 모델 서빙 패러다임 이해부터 다양한 사용 사례에 맞춰 LLMs를 효율적으로 서빙하는 방법에 이르기까지의 여정을 함께해 주셔서 축하드립니다.

마지막 장에서는 LLM 서빙 분야의 몇 가지 새로운 발전 사항을 조명하며, 새로운 아이디어와 기술이 급속도로 진화하는 가운데 여러분의 지속적인 학습을 위한 지침이 될 것입니다. 이 중 일부 아이디어는 책 한 권을 채울 만큼 방대하며, 이 분야의 발전 속도는 매우 빠릅니다. 지능형 추론 시스템의 진화를 목격하고 이에 기여할 수 있는 지금이야말로 흥미진진한 시기입니다. 이 책의 목표는 주요 개념과 프레임워크를 소개하여, 독자들이 이 책을 마치며 우리가 다룬 핵심 기초 지식과 차세대 LLM 서빙 시스템을 형성하는 새로운 아이디어를 연결할 수 있는 역량을 갖추게 하는 것입니다.

이 장에서는 다음 내용을 다룰 것입니다:

  • 더 스마트한 의미 인식 요청 분배를 위한 고수준 메커니즘으로서의 의미 캐싱 및 라우팅

  • 세밀한 성능 조정을 위한 성능 프로파일링

  • 텍스트 기반 LLMs이 비전 언어 모델(VLM) 및 기타 모달리티로 확장됨에 따른 다중 모달 서빙

  • 저지연 및 개인정보 보호형 추론을 기기에 제공하는 엣지 서빙

  • 개인화되고 미세 조정된 모델의 확장 가능하고 효율적인 배포를 가능하게 하는 멀티-LoRA

  • 강화 학습 추론의 중추 역할을 하는 LLM 서빙 시스템

의미 기반 캐싱

7장에서는 모델 서빙 엔드포인트 뒤에 있는 모델 복제본( )들이 외부 트래픽을 처리하고, 그 앞에 부하 분산을 수행하는 라우팅 레이어가 배치되는 데이터 병렬 처리에 대해 논의했습니다. 접두사 캐싱(prefix caching)과 KV 캐시 활용도를 고려한 부하 분산을 수행함에 따라 라우팅의 필요성은 더욱 중요해집니다.

서빙 시스템은 점점 더 시맨틱을 인식하게 되며 전체 생태계의 더 높은 수준에서 작동하고 있습니다. 시맨틱 인식 라우팅, 캐싱 및 검색은 더 이상 정확한 prompt와 일련의 모델 복제본에 기반하지 않고, 대신 임베딩과 벡터 검색을 사용하여 동일한 의도를 가진 prompt를 인식합니다. 이를 통해 상단에 위치한 이 시맨틱 라우팅 계층은 더 많은 캐시 히트를 가능하게 하며, 모델 추론을 언제 활성화할지에 대한 더 현명한 결정, 에이전트 기반 도구 필터링, 그리고 그림 10-1에 표시된 것처럼 순수하게 모델 복제본 수준이 아닌 모델 엔드포인트 수준에서의 모델 선택을 가능하게 합니다.

Diagram illustrating endpoint-level routing versus replica-level routing with a router directing to model endpoints A and B and their respective model instances.
그림 10-1. 엔드포인트 수준 라우팅 대 레플리카 수준 라우팅

시맨틱 라우팅을 사용하는 첫 번째이자 가장 간단한 이유는 prompt가 유사할 때 LLM 호출을 피하기 위함입니다. "시애틀에서 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

What Successful Brick-and-Mortar Retailers Get Right

What Successful Brick-and-Mortar Retailers Get Right

Rob Angell
The Human Factor in AI-Based Decision-Making

The Human Factor in AI-Based Decision-Making

Philip Meissner, Christoph Keding
What Successful Project Managers Do

What Successful Project Managers Do

W. Scott Cameron, Jeffrey S. Russell, Edward J. Hoffman, Alexander Laufer

Publisher Resources

ISBN: 0642572383671