book

AI 시스템 성능 엔지니어링 (Korean Edition)

Name: AI 시스템 성능 엔지니어링 (Korean Edition)
Author: Chris Fregly
ISBN: 0642572281533

by Chris Fregly

November 2025

Beginner to intermediate

1060 pages

20h 15m

Korean

O'Reilly Media, Inc.

Read now

Unlock full access

서문
본서에서 사용된 표기법코드 예제 사용O’Reilly 온라인 학습문의 방법감사의 말
1. 소개 및 AI 시스템 개요
AI 시스템 성능 엔지니어벤치마킹 및 자질분산 훈련 및 추론 확장자원 효율적 관리팀 간 협업투명성과 재현성DeepSeek, 중국의 미국 수출 하드웨어 제한에도 불구하고 약 6,800억 매개변수 모델까지 확장 가능100조 매개변수 모델을 향하여NVIDIA의 "랙에 담긴 AI 슈퍼컴퓨터"기계적 공감: 하드웨어-소프트웨어 공동 설계"굿풋(Goodput)" 측정 유용한 처리량책의 로드맵과 방법론핵심 요약결론
2. AI 시스템 하드웨어 개요
CPU와 GPU 슈퍼칩NVIDIA Grace CPUNVIDIA Blackwell "듀얼 다이" GPUNVIDIA GPU 텐서 코어 및 트랜스포머 엔진스트리밍 멀티프로세서, 스레드 및 워프울트라스케일 네트워킹 다수의 GPU를 하나의 GPU로 처리NVLink 및 NVSwitch멀티 GPU 프로그래밍NVIDIA SHARP를 통한 네트워크 내 집계멀티랙 및 스토리지 통신사전 통합 랙 어플라이언스공동 패키징 광학: 네트워킹 하드웨어의 미래컴퓨팅 밀도 및 전력 요구 사항공랭식 대비 수냉식실무에서의 성능 모니터링 및 활용도 관리공유 및 스케줄링하드웨어 업그레이드의 투자 수익률(ROI)미래를 엿보다: NVIDIA의 로드맵Blackwell Ultra 및 Grace Blackwell Ultra베라 루빈 슈퍼칩 (2026)루빈 울트라 및 베라 루빈 울트라 (2027)파인만 GPU (2028) 및 매년 두 배 증가하는 무언가핵심 요약결론
3. GPU 기반 환경을 위한 OS, Docker 및 쿠버네티스 튜닝
운영 체제NVIDIA 소프트웨어 스택GPU 드라이버CUDA 툴킷 및 런타임GPU 하드웨어 세대 간 CUDA 전방 및 후방 호환성C++ 및 Python CUDA 라이브러리PyTorch 및 고급 AI 프레임워크GPU 환경을 위한 CPU 및 OS 구성NUMA 인식 및 CPU 고정NUMA 친화적 메모리 할당 및 메모리 고정투명한 거대 페이지스케줄러 및 인터럽트 어피니티가상 메모리 및 스와핑파일 시스템 캐싱 및 쓰기 백CPU 주파수 및 C-상태호스트 CPU 메모리 할당기 조정성능 향상을 위한 GPU 드라이버 및 런타임 설정GPU 지속성 모드MPSMIGGPU 클럭 속도 및 ECCGPU 메모리 오버서브스크립션, 조각화 및 메모리 부족 처리GPU를 위한 컨테이너 런타임 최적화NVIDIA 컨테이너 툴킷 및 CUDA 호환성NVIDIA 컨테이너 런타임컨테이너 오버레이 파일 시스템 오버헤드 방지컨테이너 시작 속도 향상을 위한 이미지 크기 축소토폴로지 인식 컨테이너 오케스트레이션 및 네트워킹을 위한 쿠버네티스쿠버네티스 토폴로지 관리자를 통한 컨테이너 오케스트레이션쿠버네티스 및 SLURM을 통한 작업 스케줄링MIG를 통한 GPU 분할쿠버네티스를 위한 네트워크 통신 최적화쿠버네티스 오케스트레이션 지터 감소리소스 보장 개선메모리 격리 및 OOM 킬러 방지I/O 격리 처리주요 내용결론
4. 분산 네트워킹 통신 튜닝
중첩된 통신 및 계산(파이프라인 처리)스트림을 통한 비동기 실행통신 빈도 및 양 감소실제 환경에서 최대 중첩 달성NVIDIA Magnum IO 최적화 스택RDMA를 통한 고속, 저오버헤드 데이터 전송다중 노드 연결성 조정다중 노드 통신 함정분산 멀티 GPU 통신을 위한 NCCLNCCL에서의 토폴로지 인식NCCL 통신 알고리즘분산 데이터 병렬 전략NCCL 커뮤니케이터 라이프사이클 및 환경 주의사항NCCL 자질 및 디버깅네트워크 내 SHARP 집계지속적 NCCL 사용자 버퍼 및 제로-카피 등록NVIDIA의 NIXL 및 분산 추론별도의 프리필 및 디코드 추론 단계KV 캐시 전송을 위한 지능형 상호 연결 라우팅콜백을 통한 NIXL 비동기 APINIXL을 통한 KV 캐시 오프로딩NVIDIA Dynamo와 같은 고성능 추론 시스템용 NIXLNCCL 대 NIXL주요 내용결론
5. GPU 기반 스토리지 I/O 최적화
빠른 스토리지 및 데이터 지역성순차적 대 무작위 읽기 패턴처리량 향상을 위한 NVMe 및 파일 시스템 튜닝NVIDIA GDS 사용cuda-checkpoint를 사용한 GPU 상태 체크포인트gdsio를 사용한 GDS 측정DeepSeek의 Fire-Flyer 파일 시스템분산, 병렬 파일 시스템 및 객체 저장소데이터 조정, 복제 및 압축스토리지 I/O 모니터링데이터 파이프라인 조정효율적인 데이터 로딩 및 전처리GPU 수를 확장할 때 작업자 확장NVIDIA DALI를 활용한 다중 모달 데이터 처리NVIDIA NeMo Curator를 통한 고품질 LLM 데이터셋 생성지속적인 자질 및 튜닝 워크플로통신 대 컴퓨팅 바운디드 워크로드 진단주요 내용결론
6. GPU 아키텍처, CUDA 프로그래밍 및 점유율 극대화
GPU 아키텍처 이해스레드, 워프, 블록 및 그리드블록당 스레드 수 및 그리드당 블록 크기 선택CUDA GPU의 후방 및 전방 호환성 모델CUDA 프로그래밍 복습런치 매개변수 구성: 그리드당 블록 및 블록당 스레드2D 및 3D 커널 입력비동기 메모리 할당 및 메모리 풀GPU 메모리 계층 구조 이해통합 메모리높은 점유율 및 GPU 활용도 유지런치 바운디드로 점유율 조정NVIDIA Compute Sanitizer를 사용한 기능적 정확성 디버깅루프라인 모델: 컴퓨팅 바운디드 또는 메모리 바운디드 워크로드주요 요점결론
7. GPU 메모리 접근 패턴 자질 및 튜닝
통합된 글로벌 메모리 액세스와 통합되지 않은 글로벌 메모리 액세스 비교벡터화된 메모리 액세스공유 메모리를 이용한 타일링 및 데이터 재사용공유 메모리 뱅크 충돌 방지워프 셔플 내장 함수: 공유 메모리 및 명시적 동기화 회피읽기 전용 데이터 캐시비동기 메모리 프리페칭 및 텐서 메모리 가속기주요 내용결론
8. 점유율 튜닝, 워프 효율성 및 명령어 수준 병렬성
GPU 병목 현상 자질 및 진단Nsight Systems 타임라인 뷰데이터 파이프라인 자질 및 튜닝Nsight 컴퓨트 및 루프라인 분석PyTorch 자질 및 시각화 도구프로파일러 기반 분석Nsight Compute를 사용한 워프 스톨 원인 분석메모리 관련 스톨실행 종속성 스톨실행 유닛 경합기타 스톨 원인달성된 점유율 및 GPU 활용도 검사커널 메모리 처리량 대 HBM 메모리 대역폭 피크커널 연산 처리량 대 GPU FLOPS 피크반복적 자질 및 커널 병목 현상 파악커널 최적화점유율 조정워크로드에 적합한 점유율 찾기점유율 튜닝 기법점유율 최적화를 위한 컴파일러 힌트점유율 API를 통한 최적 런치 구성 결정PyTorch를 통한 점유율 조정워프 실행 효율성 개선 (워프 발산)워프 발산의 원인워프 발산 방지 기법워프 발산 자질 및 탐지예측을 통한 발산 최소화워프 내장 함수를 통한 효율적인 워프 내 통신워프 수준 효율성을 위한 PyTorch 고려 사항명령어 수준 병렬성 노출워프 스케줄링 및 듀얼 이슈 명령어ILP 및 점유율루프 언롤링, 인터리빙 및 컴파일러 힌팅레지스터 압박 자질 및 완화주요 내용결론
9. CUDA 커널 효율성 및 산술 집약도 향상
다단계 마이크로타일링 및 소프트웨어 프리페칭스레드 블록 클러스터를 이용한 타일링커널 융합구조화된 스파시티재계산 대 메모리 트레이드오프PyTorch와 산술 집약도혼합 정밀도 및 텐서 코어 활용TMEM 및 TMA를 통한 텐서 코어 공급TF32 및 자동 혼합 정밀도 (PyTorch)BF16/FP16, FP8 및 FP4 정밀도 감소추론을 위한 INT8 정밀도 감소 및 DP4A 명령어트랜스포머 엔진과 TMEM 심층 분석최적의 산술 집약도 및 텐서 코어 성능을 위한 CUTLASS 활용마이크로 최적화를 위한 인라인 PTX 및 SASS 튜닝메모리 할당 최적화를 위한 DeepSeek의 인라인 PTX 활용주요 요점결론

10. 커널 내 파이프라이닝, 워프 전문화 및 협력적 스레드 블록 클러스터
커널 내 파이프라인 기법CUDA 파이프라인 API를 통한 협력적 타일링 및 더블 버퍼링워프 특화 및 생산자-소비자 모델워프 전문화를 위한 CUDA 파이프라인 API 사용PyTorch, CUDA 파이프라인 API 및 워프 특화지속적 커널 및 메가커널지속적 커널을 위한 일반적인 워크로드추론을 위한 메가커널지속적 커널과 워프 특화협동 그룹협동 그리드 동기화와 지속적 커널지속적 커널과 협력적 그룹을 결합해야 하는 경우스레드 블록 클러스터 및 분산 공유 메모리스레드 블록 스위즐링분산 공유 메모리스크래치 메모리스레드 블록 클러스터 실행협동 그룹 API를 사용한 스레드 블록 클러스터 조정스레드 블록 페어스레드 블록 클러스터를 통한 글로벌 메모리 트래픽 감소스레드 블록 클러스터를 활용한 효율적인 알고리즘 설계스레드 블록 클러스터를 통한 워프 전문화핵심 요약결론
11. 커널 간 파이프라이닝, 동기화 및 CUDA 스트림 순서 메모리 할당
CUDA 스트림을 통한 커널 실행 중첩스트림을 이용한 데이터 전송과 컴퓨팅의 중첩스트림 순서 메모리 할당기LLMs에서 CUDA 스트림 및 스트림 순서 메모리 할당기 사용레거시 기본 스트림현대식 스레드별 기본 스트림기본 스트림 대 명시적(비기본) 스트림기본 스트림 사용을 위한 모범 사례이벤트 및 콜백을 통한 세밀한 동기화스트림 간 동기화를 위한 CUDA 이벤트 사용워프 특화(커널 내부) 및 CUDA 스트림(커널 간)을 통한 파이프라이닝스레드 블록 클러스터 및 CUDA 스트림을 통한 워프 특화CUDA 스트림을 통한 멀티 GPU 컴퓨팅 및 데이터 전송 중첩프로그램에 의한 종속적 런치워프 특화와 PDL 및 스레드 블록 클러스터 결합주요 내용결론
12. 동적 스케줄링, CUDA 그래프 및 장치 주도 커널 오케스트레이션
원자 작업 큐를 통한 동적 스케줄링원자 카운터원자적 큐CUDA 그래프PyTorch, 추론 엔진 및 CUDA 그래프CUDA 그래프용 메모리 풀CUDA 스트림으로 CUDA 그래프 캡처하기동적 그래프 업데이트장치에서 시작하는 CUDA 그래프 실행커널 내 지속적 스케줄링을 위한 원자적 큐 및 장치 시작 CUDA 그래프조건부 그래프 노드동적 병렬 처리여러 GPU 및 클러스터 노드에 걸쳐 오케스트레이션 (NVSHMEM)NVSHMEM을 통한 세밀한 GPU 간 메모리 공유NCCL 및 CUDA 그래프를 통한 다중 GPU 집합 작업 캡처N-GPU 확장을 위한 패턴루프라인 기반 스케줄링 및 오케스트레이션 결정주요 내용결론
13. PyTorch 자질, 튜닝 및 확장성
NVTX 마커 및 자질 도구병목 현상 식별을 위한 PyTorch 자질PyTorch 프로파일러 사용Nsight Systems 및 NVTX 타임라인을 사용한 시스템 자질일반 행렬 곱셈(GEMM)을 위한 커널 루프라인 분석Linux perf를 사용한 CPU 및 GPU 자질PyTorch 컴파일러(torch.compile)PyTorch 컴파일러 사용컴파일 대 커스텀 커널 작성컴파일 모드와 속도, 메모리, 컴파일 시간 간의 상충 관계지역별 컴파일컴파일러 성능 문제 자질 및 디버깅PyTorch 최적화 어텐션 메커니즘PyTorch 아키텍처 최적화(torchao), 양자화, 스파스성 및 프루닝CUDA 스트림을 통한 동시성통신과 계산의 중첩이벤트를 통한 스트림 동기화MoE 모델에서 CUDA 스트림 사용CUDA 그래프를 통한 커널 실행 오버헤드 감소CUDA 그래프 캡처 및 메모리 사전 할당그래프 재생CUDA 그래프 모범 사례CUDA 그래프 트리 (PyTorch 컴파일러 내부)PyTorch에서 메모리 자질 및 튜닝CUDA 메모리 할당기 조정메모리 절약을 위한 활성화 체크포인트매개변수를 CPU 및 NVMe로 오프로드SuperOffload: 최적화된 CPU-GPU 슈퍼칩 오프로딩FSDP 자동 체크포인트 및 오프로딩FSDP와 텐서 병렬 및 파이프라인 병렬 결합플러그인 가능한 메모리 할당기 및 크로스 GPU 데이터 전송피어 투 피어 DMA 및 UCX 활성화PyTorch 대칭 메모리데이터 입력 파이프라인 최적화PyTorch Distributed를 통한 확장torch.compile을 통한 DDPtorch.compile을 사용한 FSDPtorch.compile을 사용한 텐서 및 파이프라인 병렬 처리TorchTitan, AsyncTP, AutoParallel 및 SimpleFSDPHTA를 사용한 멀티 GPU 자질지속적 통합 및 성능 벤치마킹PyTorch HUD 성능 대시보드성능 벤치마크 및 MLPerf 로깅주요 내용결론
14. PyTorch 컴파일러, OpenAI Triton 및 XLA 백엔드
PyTorch 컴파일러 심층 분석바이트코드 캡처 및 그래프 추출을 위한 TorchDynamoAOT Autograd Fusion을 통한 전방 및 후방 패스PrimTorch IR (Prims) 단순화된 연산자 세트TorchInductor 백엔드 코드 생성TorchInductor를 통한 자동 튜닝동적 형상 및 가변 시퀀스 길이PyTorch 컴파일러 비활성화 및 이거 모드 복귀성능 힌트 및 생성된 코드 디버깅수치적 정확성과 정밀도 디버깅그래프 중단 현상 설명 및 최소화그래프 중단 및 TorchDynamo explain()그래프 재컴파일 최소화allow_in_graph로 함수 및 코드 블록을 안전하게 표시그래프 중단 처리 팁컴파일러 단계 디버깅, 그래프 중단 및 성능OpenAI Triton을 사용한 커스텀 커널 작성Triton 프로그래밍 모델Triton에서 공유 메모리 접근하기PyTorch에 커스텀 커널 등록하기커널 실행 매개변수 조정Triton 커널 자동 튜닝고급 Triton 커널 구현Triton을 사용한 워프 특화타일링 및 지속적 GEMM 커널 (Triton)Triton을 사용한 소프트웨어 파이프라이닝 및 더블 버퍼링Triton Proton Profiler를 사용한 자질 분석PyTorch XLA 백엔드주요 내용결론
15. 다중 노드 추론, 병렬화, 디코딩 및 라우팅 최적화
분리된 프리필 및 디코드 아키텍처프리필-디코드 간섭프리필 및 워커 노드 독립적 확장지연 시간(TTFT) 및 처리량(TPOT)에 미치는 영향KV 캐시 데이터 전송 및 NIXL쿠버네티스를 사용한 분산 프리필 및 디코드 배포대규모 MoE 모델 서비스용 병렬화 전략텐서 병렬 처리파이프라인 병렬 처리전문가 병렬 처리데이터 병렬 처리컨텍스트(시퀀스) 병렬성하이브리드 병렬 처리추측적 디코딩 및 병렬 토큰 생성 기법두 모델, 초안 기반 추측적 디코딩 및 EAGLE단일 모델 자기 추측적 디코딩메두사의 다중 헤드를 활용한 다중 토큰 디코딩여러 요청의 디코딩 단계 인터리빙디코딩 기법 결합 및 복잡도 평가제한된 디코딩 성능 영향MoE 추론을 위한 동적 라우팅 전략전문가 커뮤니케이션 최적화부하 분산, 용량 계수 및 전문가 복제적응형 전문가 라우팅 및 실시간 모니터링주요 내용결론
16. 대규모 추론 자질, 디버깅 및 튜닝
추론 성능 자질, 디버깅 및 튜닝시스템 메트릭 및 카운터 모니터링Nsight Systems 및 Nsight Compute를 사용한 자질추론 문제 해결 레시피전체 스택 추론 최적화정확성 문제 디버깅동적 배치, 스케줄링 및 라우팅동적 배치지속적 배치지속적 스케줄링스톨 프리 스케줄링 (청크 프리필)지연 시간 인식 스케줄링 및 동적 라우팅시스템 수준 최적화중첩된 통신 및 계산GPU 활용도 및 처리량 극대화 대 지연 시간 상충 관계전력 및 열 제약오류 처리메모리KV 캐시 오프로딩 및 메모리 풀 할당실시간 추론을 위한 양자화 접근법FP16에서 FP8 및 FP4로 정밀도 감소가중치 전용 양자화(GPTQ, AWQ)활성화 양자화훈련 후 양자화 워크플로가중치 및 활성화 양자화 결합양자화-역양자화 단계를 실행 그래프에 통합애플리케이션 수준 최적화prompt 압축prompt 정화접두사 캐싱모델 캐스케이딩 및 계층형 모델 배포스트리밍 응답디바운싱 및 요청 통합토큰 출력 제한 및 타임아웃주요 내용결론
17. 추론을 위한 분산 프리필 및 디코딩 확장
프리필-디코딩 분리를 선택해야 하는 이유분리화의 장점분리된 프리필 및 디코드 클러스터 풀분산 라우팅 및 스케줄링 정책분리된 프리필 및 디코드의 확장성핵심 요약결론
18. 고급 프리필-디코드 및 KV 캐시 튜닝
최적화된 디코드 커널FlashMLA (DeepSeek)ThunderMLA (스탠퍼드)FlexDecoding (PyTorch)KV 캐시 활용도 및 관리 조정분리된 KV 캐시 풀KV 캐시 재사용 및 접두사 공유최적화된 KV 캐시 메모리 레이아웃GPU 및 CPU-GPU 슈퍼칩 개선프리필과 디코드 간 빠른 KV 캐시 전송KV 캐시 크기제로 카피 GPU-to-GPU 전송커넥터 및 데이터 경로 설계프리필 및 디코딩을 위한 이종 하드웨어 및 병렬 처리 전략컴퓨팅 최적화 대 메모리 최적화 하드웨어GPU-CPU 협업을 통한 하이브리드 프리필SLO 인식 요청 관리 및 결함 내결함성조기 거부(입장 제어)서비스 품질결함 내결함성동적 스케줄링 및 부하 분산적응형 리소스 스케줄링 및 핫스팟 방지핵심 요약결론
19. 동적 및 적응형 추론 엔진 최적화
적응형 병렬 처리 전략 (TP 대 PP 대 하이브리드)동적 정밀도 변경트랜스포머 셀프 어텐션 및 MLP 경로를 위한 커널 자동 튜닝동적 공유 메모리 할당 및 점유율 인식 커널 선택더 빠른 TTFT를 위한 추측적 KV 프리페칭실시간 KV 캐시 압축 및 정책 전환런타임에서 AI 시스템 튜닝을 위한 강화 학습 에이전트동적 메모리 할당 전환 (슬래브 대 캐싱 대 스트림 순서)런타임 커널 성능 개선 및 핫 스왑 가능 구현시계열 예측을 이용한 CUDA 그래프 및 캐시의 지속적 사전 예열적응형 배치 및 청크별 사전 채우기 스케줄링다중 GPU를 활용한 혼잡 인식 및 토폴로지 인식 스케줄링NVLink/NVSwitch 토폴로지 및 대역폭 제약실시간 링크 원격 측정 및 모니터링적응형 프로세스-GPU 매핑NCCL을 통한 집단 통신 최적화GPUDirect RDMA를 통한 다중 노드 및 다중 랙 통신MoE 전문가 재조정 및 재그룹화동적 혼잡 인식 스케줄링정밀 조정된 스케줄링을 통한 NVSwitch 전송 조정추가 적응형 및 동적 최적화 기법동적 조기 종료 네트워크입력 인식 레이어 건너뛰기(DASH)추측적 MoE 전문가 라우팅 및 통신 감소LazyLLM을 이용한 동적 토큰 프루닝에지 지향 MoE 메모리 예산 책정동적 양자화 및 활성화 범위 조정주요 내용결론
20. AI 지원 성능 최적화 및 수백만 GPU 클러스터를 향한 확장
GPU 성능을 향상시키는 AlphaTensor AI 발견 알고리즘 (Google DeepMind)DeepSeek-R1을 통한 자동화된 GPU 커널 최적화 (NVIDIA)최적화된 GPU 커널 생성을 위한 강화 학습 접근법 (Predibase)자기 개선형 AI 에이전트 (AI Futures 프로젝트)스마트 컴파일러 및 자동화된 코드 최적화AI 지원 실시간 시스템 최적화 및 클러스터 운영수백만 GPU 클러스터 및 100조 매개변수 모델을 향한 확장주요 요점결론
부록. AI 시스템 성능 점검표 (175개 이상 항목)
성능 튜닝 및 비용 최적화 마인드셋재현성 및 문서화 모범 사례시스템 아키텍처 및 하드웨어 계획통합 CPU-GPU "슈퍼칩" 아키텍처다중 GPU 확장성 및 상호 연결 최적화운영 체제 및 드라이버 최적화GPU 리소스 관리 및 스케줄링I/O 최적화데이터 처리 파이프라인성능 자질, 디버깅 및 모니터링GPU 프로그래밍 및 CUDA 튜닝 최적화커널 스케줄링 및 실행 최적화산술 최적화 및 축소/혼합 정밀도고급 튜닝 전략 및 알고리즘 트릭분산 훈련 및 네트워크 최적화효율적인 추론 및 서비스다중 노드 추론 및 서비스전력 및 열 관리결론
목록
저자 소개

Content preview from AI 시스템 성능 엔지니어링 (Korean Edition)

제17장. 추론을 위한 분산 프리필 및 디코딩확장

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

이전 장에서 언급했듯이, LLM 추론은 두 가지 별개의 단계로 나눌 수 있습니다: 사전 채우기( ) 단계와 디코딩(decode) 단계입니다. 사전 채우기 단계는 입력 prompt를 처리하여 해당 prompt에 대한 LLM의 내부 키-값(KV) 캐시를 생성하는 반면, 디코딩 단계는 캐시된 값들을 사용하여 출력 토큰을 하나씩(또는 추측적 디코딩의 경우 한 번에 몇 개씩) 생성합니다.

이 두 단계는 근본적으로 다른 성능 특성을 가집니다. 프리필 단계는 컴퓨팅 바운디드하며, 수천 개의 토큰에 대한 병렬 행렬 연산을 다수 수행하여 상당한 양의 FLOPS를 소모합니다. 반면 디코딩 단계는 메모리 I/O 바운디드하며, 각 토큰 생성을 위해 대규모 KV 캐시를 읽고 새 값을 쓰며 메모리 대역폭에 부담을 줍니다. 간단히 말해 프리필은 높은 처리량의 병렬 작업 부하인 반면, 디코딩은 순차적이며 지연 시간에 민감한 작업 부하입니다.

초기 LLM 서비스 시스템은 두 단계를 동일한 하드웨어 상의 단일 통합 파이프라인으로 처리했습니다. 따라서 일반적으로 요청 배칭을 통해 처리량을 우선시함으로써 프리필 단계를 중시했습니다. 그러나 대화형 애플리케이션이 증가함에 따라, 첫 번째 토큰까지의 시간(TTFT, 모든 토큰에 대한 프리필 지연) 및 출력 토큰당 시간(TPOT, 토큰당 디코드 지연)과 같은 실시간 성능( ) 지표가 순수 처리량만큼 중요해졌습니다. 단일 GPU 기반 추론 엔진이 두 단계를 동시에 처리할 때 TTFT와 TPOT를 동시에 최적화하는 것은 어렵습니다.

많은 요청을 배치하면 처리량은 향상되지만, 모든 요청이 가장 느린 프리필을 기다려야 하므로 TTFT는 악화됩니다. 또한 디코딩 단계가 새 prompt 프리필 뒤에 백로그가 쌓이게 되어 TPOT에도 영향을 미칩니다.

단일형 추론 시스템은 첫 번째 토큰까지의 시간(TTFT)을 개선(단축)하는 대신 후속 토큰 생성이 느려지는 대가를 치르거나, 토큰당 처리량(TPOT)을 개선(증가)하는 대신 새 요청이 높은 초기 지연 시간을 겪게 되는 선택을 해야 합니다. 극단적인 경우, 하나의 긴 prompt가 GPU를 완전히 점유하여 다른 사용자의 모든 프롬프트 프리필 작업을 차단할 수 있습니다. 또한 디코딩이 시작되면, 한 번에 하나의 토큰만 처리하는 방식은 각 토큰 생성 사이에 GPU 코어를 유휴 상태로 남겨둡니다.

이러한 문제를 해결하기 위해 연구진과 엔지니어 는 두 단계를 분리하는 방법을 모색했습니다. 핵심 통찰은 프리필과 디코딩이 반드시 동일한 하드웨어, 심지어 동일한 유형의 하드웨어에서 실행될 필요가 없다는 점입니다.

프리필과 디코딩 단계를 분리한다는 것은 각 단계의 요구사항에 특화된 서로 다른 리소스에 할당하는 것을 의미합니다. 이 아이디어는 DistServe에 관한 논문에서 시스템에 의해 최초로 제안되었으며, 단계 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

PostgreSQL로 데이터 및 AI 플랫폼 구축하기 (Korean Edition)

Publisher Resources

ISBN: 0642572281533

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

AI 시스템 성능 엔지니어링 (Korean Edition)

by Chris Fregly

제17장. 추론을 위한 분산 프리필 및 디코딩확장

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.