book

LLM 서비스 및 최적화 실습하기 (Korean Edition)

Name: LLM 서비스 및 최적화 실습하기 (Korean Edition)
ISBN: 0642572383671

by Chi Wang, Peiheng Hu

May 2026

Intermediate

374 pages

6h 40m

Korean

O'Reilly Media, Inc.

Read now

Unlock full access

서문
왜 LLM 서빙과 최적화가 필요한가?이 책의 목표이 책을 읽어야 할 대상이 책이 다루지 않는 내용이 책의 구성이 책을 활용하는 방법준비물이 책에서 사용하는 표기법코드 예제 활용법O’Reilly 온라인 학습문의 방법감사의 말
1. 모델 서빙 및 최적화 소개
모델의 구조모델 아키텍처모델 데이터모델 실행 코드모델 라이프사이클: 훈련에서 서빙까지모델 서빙이란 무엇인가?모델 서빙을 공부해야 하는 이유모델 서빙을 최적화해야 하는 이유 (특히 LLMs의 경우)예시: 모델 서빙 프레임워크(vLLM)를 활용한 LLM 처리량 향상모델 서빙 패러다임온디바이스(엣지) 서빙단일 모델 서비스다중 모델 서비스모델 서빙 플랫폼요약
2. 대규모 언어 모델 서빙
트랜스포머의 내부 구조LLM의 진화트랜스포머의 자기회귀적 특성디코더 전용 트랜스포머 아키텍처어텐션 계산을 통한 토큰 컨텍스트 포착LLM 생성 실행: 단계별 안내Qwen 모델 실행행별 모델 예측성능 향상을 위한 KV 캐시 활성화프리필 및 디코딩 단계서빙 프레임워크를 사용하여 LLM 실행 vLLM을 사용하여 LLM(Qwen) 제공성능 비교: vLLM 대 Hugging Face TransformersLLM 스트리밍 서빙의 기초LLM 배치 서빙의 기초요약
3. 모델 서빙 시스템 설계: 심층 분석
온라인 LLM 서빙 서비스를 처음부터 구축하기설계 목표서비스 아키텍처단일 생성 요청 처리 구현배칭배칭을 활용한 스트리밍vLLM을 활용한 배치 서빙단일 모델 LLM 서빙을 위한 일반적인 설계단일 모델 서빙을 위한 요구 사항일반 설계다중 모델 서빙 서비스를 처음부터 구축하기설계 목표서비스 아키텍처핵심 구현NVIDIA Triton을 모델 서버로 사용하기다중 모델 서빙 설계의 장단점과제비용 최적화된 다중 모델 설계지연 시간 최적화 다중 모델 설계요약
4. 모델 서빙 모범 사례
에이전트 기반 환경에서의 모델 서빙에이전트 정의지식 에이전트 예시에이전트 설계에이전트의 내부 워크플로우에이전트의 자율성검색 강화 생성(RAG)캐시 강화 생성(CAG)에이전트가 모델 서빙을 사용하는 방법엔터프라이즈 시스템에서의 LLM 서빙: 개요공개 API 계층리소스 관리 계층모델 선택 및 오케스트레이션 계층분산 서빙 계층핵심 추론 계층모델 최적화 계층모델 계층오픈 소스 스택을 활용한 구축공개 API 구현모델 선택 구현모델 서빙 엔드포인트 구현Cloud 벤더를 활용한 구축옵션 1: 완전 관리형 파운데이션 모델 서빙옵션 2: 원클릭 파운데이션 모델 배포옵션 3: 자체 모델 사용옵션 4: 자체 코드 사용옵션 5: 자체 서빙 이미지 사용옵션 6: 자체 서빙 인프라 구축옵션 비교직접 구축할까, 구매할까? 전략 이해구축 방법을 아는 것이 도움이 되는 이유 — 직접 구축하지 않더라도선택 전략LLM 서빙의 성능 측정지연 시간 지표처리량 지표성능 측정을 위한 모범 사례요약
5. LLMs 서빙 시의 과제
LLM 서빙 최적화의 중요성고객 경험비용 효율성확장성, 피크 부하 처리 및 타당성LLM 서빙에서 가속기 칩의 역할GPU 사양 읽기주요 GPU 사양 비교LLM 모델 로딩의 병목 현상모델 로딩 과정모델 크기 추정KV 캐시 크기 추정LLM 모델 실행의 병목 현상GPU 연산 및 메모리 대역폭의 한계행렬 곱셈의 연산 집약도LLM 프리필 및 디코딩 단계에 산술 집약도 분석 적용기타 AI 가속기 및 동향요약
6. 필수 LLM 최적화 기법
요청 배치 및 스케줄링 수준 최적화실시간 서빙에서 배칭이 필요한 이유는 무엇인가?온라인 추론에서의 동적 배칭LLM 온라인 추론을 위한 연속 배칭청크 기반 프리필을 활용한 연속 배칭어텐션 확장 및 커널 최적화확장 가능한 어텐션 메커니즘커널 퓨전과 사용자 정의 어텐션 커널모델 압축양자화증류프루닝접두사 캐싱RadixAttention사용 사례모범 사례접두사 캐시 확장요약
7. 고급 LLM 최적화 기법
추측 디코딩자세한 단계튜닝 및 사용법실습: 추측 디코딩다중 GPU 및 다중 노드 추론데이터 병렬 처리텐서 병렬 처리 및 파이프라인 병렬 처리전문가 수준의 병렬 처리프리필-디코딩 분산전체 아키텍처KV 캐시 전송사용 시점고급 KV 캐싱긴 컨텍스트 처리비용 및 지연 시간 계산자체 호스팅 LLMsLMCache 실습요약
8. LLM 서빙 프레임워크
전용 LLM 서빙 프레임워크가 필요한 이유vLLMvLLM 아키텍처모델 초기화 워크플로 (멀티 프로세스 워커 사용)생성 요청 실행 워크플로스케줄러 심층 분석vLLM의 계층적 최적화 전략TensorRT-LLMSGLangLlama.cpp적합한 프레임워크 선택요약
9. 실무에서의 LLM 최적화
LLM 서빙 최적화 계획vLLM을 활용한 Qwen3-14B 서빙 최적화1단계: GPU 하드웨어 분석2단계: 벤치마크 트래픽 생성3단계: 평가 지표 정의4단계: 모델 서빙 서버 설정5단계: vLLM을 사용하여 Qwen3 모델 벤치마킹6단계: vLLM을 사용하여 양자화된 Qwen3 모델 벤치마킹7단계: 추가 최적화 기법 적용8단계: 분산 서빙을 사용한 Qwen3 모델 벤치마킹일반적인 최적화 상충 관계요약

10. LLM 서빙의 발전
의미적 캐싱성능 프로파일링 전략다중 모달 서빙다중 모달 입력 처리아키텍처 및 시스템적 시사점엣지 AI: 동인 및 촉진 요인전용 저전력 하드웨어모델 압축 및 최적화이종 컴퓨팅열 고려 스케줄링엣지-Cloud 하이브리드 컴퓨팅Multi-LoRA 서빙강화 학습에서의 모델 서빙강화 학습(RL)에서의 LLM 서빙강화 학습(RL) 서빙에서의 결정론요약
목차
저자 소개

Content preview from LLM 서비스 및 최적화 실습하기 (Korean Edition)

제1장. 모델 서빙 및 최적화소개

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

지난 10년 동안 AI 시스템은 오프라인 연구용 프로토타입에서 일상적인 제품에 내장된 실시간 사용자 대응 기능으로 진화했습니다. 현대적인 AI 워크플로는 데이터 수집과 모델 훈련부터 배포, 모니터링, 지속적인 반복에 이르기까지 전체 라이프사이클을 아우르며, Deep Learning과 LLMs의 부상으로 이 라이프사이클은 극적으로 가속화되었습니다. 점점 더 강력한 모델을 훈련하는 데 많은 관심이 쏠리고 있지만, 프로덕션 환경에서 이러한 모델을 안정적이고 효율적으로 제공하는 것 또한 그만큼 중요해졌습니다.

본질적으로 모델 서빙은 AI 모델을 최종 사용자, 애플리케이션 및 시스템이 이용할 수 있도록 하는 과제를 해결하는 프로세스로 , API, 웹 서비스 또는 통합 워크플로를 통해 작동하여 이전에 본 적 없는 새로운 데이터에 대해 예측( 추론이라고 함)을 생성합니다.

간단한 비유를 들자면, 고객에게 AI 기능을 제공하든 운영 효율성을 높이든 모든 종류의 비즈니스에 있어 모델 서빙은 일종의 공급망입니다. 훈련된 모델은 적절한 지연 시간, 신뢰성, 비용 특성을 갖추고 사용자에게 전달되지 않는 한 비즈니스적 가치가 거의 없습니다. 예를 들어, Amazon과 넷플릭스는 사용자가 콘텐츠를 탐색할 때 고객 추천을 즉시 업데이트하기 위해 모델 서빙을 사용합니다. 은행은 온라인 쇼핑 결제 시 사기 거래를 차단하기 위해 모델 서빙을 활용하며, 항공사 챗봇은 실시간 항공편 업데이트와 재예약 옵션을 제공하기 위해 이를 사용합니다. 이러한 기업들의 경우 모델 서빙 시스템이 중단되면 비즈니스가 멈춰버립니다.

모든 제조업체가 효율적이고 비용 효율적인 공급망을 추구하는 것처럼, AI 기업들도 프로덕션 환경에서 모델과 하드웨어를 효율적이고 효과적으로 활용하고자 합니다. 따라서 올바른 모델 서빙 방식을 선택하고 이를 최적화하는 것은 매우 중요합니다. 이는 기업의 생명선과 운영 비용에 직접적인 영향을 미치기 때문입니다. 어떤 역할을 맡고 있든, AI 업계에 종사한다면 모델 서빙에 대한 지식을 갖추는 것이 도움이 될 것입니다.

10년 넘게 모델 서빙 인프라를 다뤄온 기술 리더로서, 우리는 연구원, 개발자, 경영진, 마케팅 담당자, 고객, 학생 등 이 분야의 다양한 관계자들과 협력해 왔습니다. 우리는 사람들이 모델 서빙을 처음 이해하려고 할 때 종종 위축되거나 압도감을 느낀다는 사실을 발견했습니다. 여기에는 세 가지 주요 이유가 있습니다. 첫째, 이미 모델 훈련에 대한 깊은 지식이 있어야 합니다. 둘째, 아직까지 입문 튜토리얼에서 세계적 수준의 서빙 시스템 관리에 이르는 명확한 학습 경로가 마련되어 있지 않습니다. 셋째, 프레임워크, 라이브러리, 벤더 및 기타 엔지니어링 옵션이 너무 많아 어떤 것을 채택할지 결정하기 어려울 수 있습니다. 이 책은 모델 서빙과 최적화에 대한 체계적이고 실용적인 가이드를 제공함으로써 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

What Successful Brick-and-Mortar Retailers Get Right

Publisher Resources

ISBN: 0642572383671

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

LLM 서비스 및 최적화 실습하기 (Korean Edition)

by Chi Wang, Peiheng Hu

제1장. 모델 서빙 및 최적화소개

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.