Skip to Content
LLM 서비스 및 최적화 실습하기 (Korean Edition)
book

LLM 서비스 및 최적화 실습하기 (Korean Edition)

by Chi Wang, Peiheng Hu
May 2026
Intermediate
374 pages
6h 40m
Korean
O'Reilly Media, Inc.
Content preview from LLM 서비스 및 최적화 실습하기 (Korean Edition)

제2장. 대규모 언어 모델 서빙

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

이전 장에서는 모델의 개념, 모델 서빙( ), 그리고 일반적인 서빙 패러다임을 소개했습니다. 이번 장에서는 LLMs 서빙과 관련된 구체적인 과제와 기법에 초점을 맞출 것입니다.

모델 서빙 분야에 진입하는 이들이 직면하는 가장 흔한 장벽 중 하나는 현대 서빙 시스템의 엄청난 복잡성입니다. 모델 아키텍처, 훈련 알고리즘, 툴링이 급속도로 진화하는 데다 모니터링, 스케일링, 보안, CI/CD 파이프라인, 서비스 종속성 같은 다층적인 운영 인프라까지 더해지면 , 금세 압도당하기 쉽습니다. 그 결과 많은 엔지니어와 연구자가 핵심 원리를 파악하기도 전에 시스템 세부 사항에 얽매여 본질을 놓치게 됩니다.

이를 해결하기 위해 저희는 기초부터 시작하는 접근 방식을 취합니다. LLM 서빙에 필요한 최소한의 코드부터 시작하여 그 위에서 단계적으로 구축해 나갑니다. 이를 통해 토큰 생성이 어떻게 작동하는지, 그리고 LLM 서빙이 왜 독특한 과제를 제기하는지에 대한 탄탄한 멘탈 모델을 다질 수 있습니다. 이러한 토대 위에서, 남은 챕터들에서는 시스템 아키텍처, 성능 최적화 방법, 인프라 선택과 같은 더 심화된 주제로 점차 확장해 나갈 것입니다. 이 챕터에서는 다음 내용부터 시작합니다:

  • 토큰 생성 과정과 어텐션 메커니즘을 포함한 LLMs의 기본 아키텍처

  • 실습 코드 예제를 통해 추론 과정에서 내부적으로 어떤 일이 일어나는지 살펴보기

  • 프리필(prefill), 디코딩(decode), 키-값(KV) 캐시 재사용 등 LLM 서빙의 핵심 개념

  • 이러한 기본 원리를 이해하는 것이 병목 현상 진단과 성능 개선에 기여하는 데 왜 중요한지

그 다음에는 최신 서빙 프레임워크인 vLLM을 사용하여 모델 서빙 효율을 개선하는 방법을 시연할 것입니다. 이어서 vLLM을 활용해 프로덕션급 성능을 달성하는 데 필수적인 스트리밍 및 배칭과 같은 주요 서빙 기법을 소개하겠습니다.

이 장은 이 책의 기초가 되는 장입니다. 우리의 목표는 여러분이 LLM 서빙 시스템을 논리적으로 분석하는 데 필요한 실용적인 이해와 직관을 갖추도록 돕는 것입니다. 여러분은 시스템의 동작 방식, 한계, 그리고 최적화 기회에 대한 명확한 이해를 얻게 될 것이며, 이는 시스템 설계, 확장성, 그리고 고급 서빙 최적화 전략을 심도 있게 다루는 후속 장들의 토대가 될 것입니다.

이 장 전반에 걸쳐 각 개념을 확실히 이해할 수 있도록 실습 예제를 제공합니다. 걱정하지 마세요. 심도 있는 수학적 지식이 필요하지 않습니다. 훈련보다는 서빙에 초점을 맞추고 있으므로, 수학적 개념을 직관적인 설명으로 추상화하여 여러분이 엔지니어링 관점에 집중할 수 있도록 했습니다.

다음 장에서는 여기서 배운 내용을 바탕으로, 핵심 설계 결정 사항과 설계 원칙을 다루며 이를 실제 웹 서비스에 적용하는 방법을 보여드리겠습니다.

트랜스포머의 내부 구조

이 섹션에서는

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

What Successful Brick-and-Mortar Retailers Get Right

What Successful Brick-and-Mortar Retailers Get Right

Rob Angell
The Human Factor in AI-Based Decision-Making

The Human Factor in AI-Based Decision-Making

Philip Meissner, Christoph Keding
What Successful Project Managers Do

What Successful Project Managers Do

W. Scott Cameron, Jeffrey S. Russell, Edward J. Hoffman, Alexander Laufer

Publisher Resources

ISBN: 0642572383671