book

AI 시스템 성능 엔지니어링 (Korean Edition)

Name: AI 시스템 성능 엔지니어링 (Korean Edition)
Author: Chris Fregly
ISBN: 0642572281533

by Chris Fregly

November 2025

Beginner to intermediate

1060 pages

20h 15m

Korean

O'Reilly Media, Inc.

Read now

Unlock full access

서문
본서에서 사용된 표기법코드 예제 사용O’Reilly 온라인 학습문의 방법감사의 말
1. 소개 및 AI 시스템 개요
AI 시스템 성능 엔지니어벤치마킹 및 자질분산 훈련 및 추론 확장자원 효율적 관리팀 간 협업투명성과 재현성DeepSeek, 중국의 미국 수출 하드웨어 제한에도 불구하고 약 6,800억 매개변수 모델까지 확장 가능100조 매개변수 모델을 향하여NVIDIA의 "랙에 담긴 AI 슈퍼컴퓨터"기계적 공감: 하드웨어-소프트웨어 공동 설계"굿풋(Goodput)" 측정 유용한 처리량책의 로드맵과 방법론핵심 요약결론
2. AI 시스템 하드웨어 개요
CPU와 GPU 슈퍼칩NVIDIA Grace CPUNVIDIA Blackwell "듀얼 다이" GPUNVIDIA GPU 텐서 코어 및 트랜스포머 엔진스트리밍 멀티프로세서, 스레드 및 워프울트라스케일 네트워킹 다수의 GPU를 하나의 GPU로 처리NVLink 및 NVSwitch멀티 GPU 프로그래밍NVIDIA SHARP를 통한 네트워크 내 집계멀티랙 및 스토리지 통신사전 통합 랙 어플라이언스공동 패키징 광학: 네트워킹 하드웨어의 미래컴퓨팅 밀도 및 전력 요구 사항공랭식 대비 수냉식실무에서의 성능 모니터링 및 활용도 관리공유 및 스케줄링하드웨어 업그레이드의 투자 수익률(ROI)미래를 엿보다: NVIDIA의 로드맵Blackwell Ultra 및 Grace Blackwell Ultra베라 루빈 슈퍼칩 (2026)루빈 울트라 및 베라 루빈 울트라 (2027)파인만 GPU (2028) 및 매년 두 배 증가하는 무언가핵심 요약결론
3. GPU 기반 환경을 위한 OS, Docker 및 쿠버네티스 튜닝
운영 체제NVIDIA 소프트웨어 스택GPU 드라이버CUDA 툴킷 및 런타임GPU 하드웨어 세대 간 CUDA 전방 및 후방 호환성C++ 및 Python CUDA 라이브러리PyTorch 및 고급 AI 프레임워크GPU 환경을 위한 CPU 및 OS 구성NUMA 인식 및 CPU 고정NUMA 친화적 메모리 할당 및 메모리 고정투명한 거대 페이지스케줄러 및 인터럽트 어피니티가상 메모리 및 스와핑파일 시스템 캐싱 및 쓰기 백CPU 주파수 및 C-상태호스트 CPU 메모리 할당기 조정성능 향상을 위한 GPU 드라이버 및 런타임 설정GPU 지속성 모드MPSMIGGPU 클럭 속도 및 ECCGPU 메모리 오버서브스크립션, 조각화 및 메모리 부족 처리GPU를 위한 컨테이너 런타임 최적화NVIDIA 컨테이너 툴킷 및 CUDA 호환성NVIDIA 컨테이너 런타임컨테이너 오버레이 파일 시스템 오버헤드 방지컨테이너 시작 속도 향상을 위한 이미지 크기 축소토폴로지 인식 컨테이너 오케스트레이션 및 네트워킹을 위한 쿠버네티스쿠버네티스 토폴로지 관리자를 통한 컨테이너 오케스트레이션쿠버네티스 및 SLURM을 통한 작업 스케줄링MIG를 통한 GPU 분할쿠버네티스를 위한 네트워크 통신 최적화쿠버네티스 오케스트레이션 지터 감소리소스 보장 개선메모리 격리 및 OOM 킬러 방지I/O 격리 처리주요 내용결론
4. 분산 네트워킹 통신 튜닝
중첩된 통신 및 계산(파이프라인 처리)스트림을 통한 비동기 실행통신 빈도 및 양 감소실제 환경에서 최대 중첩 달성NVIDIA Magnum IO 최적화 스택RDMA를 통한 고속, 저오버헤드 데이터 전송다중 노드 연결성 조정다중 노드 통신 함정분산 멀티 GPU 통신을 위한 NCCLNCCL에서의 토폴로지 인식NCCL 통신 알고리즘분산 데이터 병렬 전략NCCL 커뮤니케이터 라이프사이클 및 환경 주의사항NCCL 자질 및 디버깅네트워크 내 SHARP 집계지속적 NCCL 사용자 버퍼 및 제로-카피 등록NVIDIA의 NIXL 및 분산 추론별도의 프리필 및 디코드 추론 단계KV 캐시 전송을 위한 지능형 상호 연결 라우팅콜백을 통한 NIXL 비동기 APINIXL을 통한 KV 캐시 오프로딩NVIDIA Dynamo와 같은 고성능 추론 시스템용 NIXLNCCL 대 NIXL주요 내용결론
5. GPU 기반 스토리지 I/O 최적화
빠른 스토리지 및 데이터 지역성순차적 대 무작위 읽기 패턴처리량 향상을 위한 NVMe 및 파일 시스템 튜닝NVIDIA GDS 사용cuda-checkpoint를 사용한 GPU 상태 체크포인트gdsio를 사용한 GDS 측정DeepSeek의 Fire-Flyer 파일 시스템분산, 병렬 파일 시스템 및 객체 저장소데이터 조정, 복제 및 압축스토리지 I/O 모니터링데이터 파이프라인 조정효율적인 데이터 로딩 및 전처리GPU 수를 확장할 때 작업자 확장NVIDIA DALI를 활용한 다중 모달 데이터 처리NVIDIA NeMo Curator를 통한 고품질 LLM 데이터셋 생성지속적인 자질 및 튜닝 워크플로통신 대 컴퓨팅 바운디드 워크로드 진단주요 내용결론
6. GPU 아키텍처, CUDA 프로그래밍 및 점유율 극대화
GPU 아키텍처 이해스레드, 워프, 블록 및 그리드블록당 스레드 수 및 그리드당 블록 크기 선택CUDA GPU의 후방 및 전방 호환성 모델CUDA 프로그래밍 복습런치 매개변수 구성: 그리드당 블록 및 블록당 스레드2D 및 3D 커널 입력비동기 메모리 할당 및 메모리 풀GPU 메모리 계층 구조 이해통합 메모리높은 점유율 및 GPU 활용도 유지런치 바운디드로 점유율 조정NVIDIA Compute Sanitizer를 사용한 기능적 정확성 디버깅루프라인 모델: 컴퓨팅 바운디드 또는 메모리 바운디드 워크로드주요 요점결론
7. GPU 메모리 접근 패턴 자질 및 튜닝
통합된 글로벌 메모리 액세스와 통합되지 않은 글로벌 메모리 액세스 비교벡터화된 메모리 액세스공유 메모리를 이용한 타일링 및 데이터 재사용공유 메모리 뱅크 충돌 방지워프 셔플 내장 함수: 공유 메모리 및 명시적 동기화 회피읽기 전용 데이터 캐시비동기 메모리 프리페칭 및 텐서 메모리 가속기주요 내용결론
8. 점유율 튜닝, 워프 효율성 및 명령어 수준 병렬성
GPU 병목 현상 자질 및 진단Nsight Systems 타임라인 뷰데이터 파이프라인 자질 및 튜닝Nsight 컴퓨트 및 루프라인 분석PyTorch 자질 및 시각화 도구프로파일러 기반 분석Nsight Compute를 사용한 워프 스톨 원인 분석메모리 관련 스톨실행 종속성 스톨실행 유닛 경합기타 스톨 원인달성된 점유율 및 GPU 활용도 검사커널 메모리 처리량 대 HBM 메모리 대역폭 피크커널 연산 처리량 대 GPU FLOPS 피크반복적 자질 및 커널 병목 현상 파악커널 최적화점유율 조정워크로드에 적합한 점유율 찾기점유율 튜닝 기법점유율 최적화를 위한 컴파일러 힌트점유율 API를 통한 최적 런치 구성 결정PyTorch를 통한 점유율 조정워프 실행 효율성 개선 (워프 발산)워프 발산의 원인워프 발산 방지 기법워프 발산 자질 및 탐지예측을 통한 발산 최소화워프 내장 함수를 통한 효율적인 워프 내 통신워프 수준 효율성을 위한 PyTorch 고려 사항명령어 수준 병렬성 노출워프 스케줄링 및 듀얼 이슈 명령어ILP 및 점유율루프 언롤링, 인터리빙 및 컴파일러 힌팅레지스터 압박 자질 및 완화주요 내용결론
9. CUDA 커널 효율성 및 산술 집약도 향상
다단계 마이크로타일링 및 소프트웨어 프리페칭스레드 블록 클러스터를 이용한 타일링커널 융합구조화된 스파시티재계산 대 메모리 트레이드오프PyTorch와 산술 집약도혼합 정밀도 및 텐서 코어 활용TMEM 및 TMA를 통한 텐서 코어 공급TF32 및 자동 혼합 정밀도 (PyTorch)BF16/FP16, FP8 및 FP4 정밀도 감소추론을 위한 INT8 정밀도 감소 및 DP4A 명령어트랜스포머 엔진과 TMEM 심층 분석최적의 산술 집약도 및 텐서 코어 성능을 위한 CUTLASS 활용마이크로 최적화를 위한 인라인 PTX 및 SASS 튜닝메모리 할당 최적화를 위한 DeepSeek의 인라인 PTX 활용주요 요점결론

10. 커널 내 파이프라이닝, 워프 전문화 및 협력적 스레드 블록 클러스터
커널 내 파이프라인 기법CUDA 파이프라인 API를 통한 협력적 타일링 및 더블 버퍼링워프 특화 및 생산자-소비자 모델워프 전문화를 위한 CUDA 파이프라인 API 사용PyTorch, CUDA 파이프라인 API 및 워프 특화지속적 커널 및 메가커널지속적 커널을 위한 일반적인 워크로드추론을 위한 메가커널지속적 커널과 워프 특화협동 그룹협동 그리드 동기화와 지속적 커널지속적 커널과 협력적 그룹을 결합해야 하는 경우스레드 블록 클러스터 및 분산 공유 메모리스레드 블록 스위즐링분산 공유 메모리스크래치 메모리스레드 블록 클러스터 실행협동 그룹 API를 사용한 스레드 블록 클러스터 조정스레드 블록 페어스레드 블록 클러스터를 통한 글로벌 메모리 트래픽 감소스레드 블록 클러스터를 활용한 효율적인 알고리즘 설계스레드 블록 클러스터를 통한 워프 전문화핵심 요약결론
11. 커널 간 파이프라이닝, 동기화 및 CUDA 스트림 순서 메모리 할당
CUDA 스트림을 통한 커널 실행 중첩스트림을 이용한 데이터 전송과 컴퓨팅의 중첩스트림 순서 메모리 할당기LLMs에서 CUDA 스트림 및 스트림 순서 메모리 할당기 사용레거시 기본 스트림현대식 스레드별 기본 스트림기본 스트림 대 명시적(비기본) 스트림기본 스트림 사용을 위한 모범 사례이벤트 및 콜백을 통한 세밀한 동기화스트림 간 동기화를 위한 CUDA 이벤트 사용워프 특화(커널 내부) 및 CUDA 스트림(커널 간)을 통한 파이프라이닝스레드 블록 클러스터 및 CUDA 스트림을 통한 워프 특화CUDA 스트림을 통한 멀티 GPU 컴퓨팅 및 데이터 전송 중첩프로그램에 의한 종속적 런치워프 특화와 PDL 및 스레드 블록 클러스터 결합주요 내용결론
12. 동적 스케줄링, CUDA 그래프 및 장치 주도 커널 오케스트레이션
원자 작업 큐를 통한 동적 스케줄링원자 카운터원자적 큐CUDA 그래프PyTorch, 추론 엔진 및 CUDA 그래프CUDA 그래프용 메모리 풀CUDA 스트림으로 CUDA 그래프 캡처하기동적 그래프 업데이트장치에서 시작하는 CUDA 그래프 실행커널 내 지속적 스케줄링을 위한 원자적 큐 및 장치 시작 CUDA 그래프조건부 그래프 노드동적 병렬 처리여러 GPU 및 클러스터 노드에 걸쳐 오케스트레이션 (NVSHMEM)NVSHMEM을 통한 세밀한 GPU 간 메모리 공유NCCL 및 CUDA 그래프를 통한 다중 GPU 집합 작업 캡처N-GPU 확장을 위한 패턴루프라인 기반 스케줄링 및 오케스트레이션 결정주요 내용결론
13. PyTorch 자질, 튜닝 및 확장성
NVTX 마커 및 자질 도구병목 현상 식별을 위한 PyTorch 자질PyTorch 프로파일러 사용Nsight Systems 및 NVTX 타임라인을 사용한 시스템 자질일반 행렬 곱셈(GEMM)을 위한 커널 루프라인 분석Linux perf를 사용한 CPU 및 GPU 자질PyTorch 컴파일러(torch.compile)PyTorch 컴파일러 사용컴파일 대 커스텀 커널 작성컴파일 모드와 속도, 메모리, 컴파일 시간 간의 상충 관계지역별 컴파일컴파일러 성능 문제 자질 및 디버깅PyTorch 최적화 어텐션 메커니즘PyTorch 아키텍처 최적화(torchao), 양자화, 스파스성 및 프루닝CUDA 스트림을 통한 동시성통신과 계산의 중첩이벤트를 통한 스트림 동기화MoE 모델에서 CUDA 스트림 사용CUDA 그래프를 통한 커널 실행 오버헤드 감소CUDA 그래프 캡처 및 메모리 사전 할당그래프 재생CUDA 그래프 모범 사례CUDA 그래프 트리 (PyTorch 컴파일러 내부)PyTorch에서 메모리 자질 및 튜닝CUDA 메모리 할당기 조정메모리 절약을 위한 활성화 체크포인트매개변수를 CPU 및 NVMe로 오프로드SuperOffload: 최적화된 CPU-GPU 슈퍼칩 오프로딩FSDP 자동 체크포인트 및 오프로딩FSDP와 텐서 병렬 및 파이프라인 병렬 결합플러그인 가능한 메모리 할당기 및 크로스 GPU 데이터 전송피어 투 피어 DMA 및 UCX 활성화PyTorch 대칭 메모리데이터 입력 파이프라인 최적화PyTorch Distributed를 통한 확장torch.compile을 통한 DDPtorch.compile을 사용한 FSDPtorch.compile을 사용한 텐서 및 파이프라인 병렬 처리TorchTitan, AsyncTP, AutoParallel 및 SimpleFSDPHTA를 사용한 멀티 GPU 자질지속적 통합 및 성능 벤치마킹PyTorch HUD 성능 대시보드성능 벤치마크 및 MLPerf 로깅주요 내용결론
14. PyTorch 컴파일러, OpenAI Triton 및 XLA 백엔드
PyTorch 컴파일러 심층 분석바이트코드 캡처 및 그래프 추출을 위한 TorchDynamoAOT Autograd Fusion을 통한 전방 및 후방 패스PrimTorch IR (Prims) 단순화된 연산자 세트TorchInductor 백엔드 코드 생성TorchInductor를 통한 자동 튜닝동적 형상 및 가변 시퀀스 길이PyTorch 컴파일러 비활성화 및 이거 모드 복귀성능 힌트 및 생성된 코드 디버깅수치적 정확성과 정밀도 디버깅그래프 중단 현상 설명 및 최소화그래프 중단 및 TorchDynamo explain()그래프 재컴파일 최소화allow_in_graph로 함수 및 코드 블록을 안전하게 표시그래프 중단 처리 팁컴파일러 단계 디버깅, 그래프 중단 및 성능OpenAI Triton을 사용한 커스텀 커널 작성Triton 프로그래밍 모델Triton에서 공유 메모리 접근하기PyTorch에 커스텀 커널 등록하기커널 실행 매개변수 조정Triton 커널 자동 튜닝고급 Triton 커널 구현Triton을 사용한 워프 특화타일링 및 지속적 GEMM 커널 (Triton)Triton을 사용한 소프트웨어 파이프라이닝 및 더블 버퍼링Triton Proton Profiler를 사용한 자질 분석PyTorch XLA 백엔드주요 내용결론
15. 다중 노드 추론, 병렬화, 디코딩 및 라우팅 최적화
분리된 프리필 및 디코드 아키텍처프리필-디코드 간섭프리필 및 워커 노드 독립적 확장지연 시간(TTFT) 및 처리량(TPOT)에 미치는 영향KV 캐시 데이터 전송 및 NIXL쿠버네티스를 사용한 분산 프리필 및 디코드 배포대규모 MoE 모델 서비스용 병렬화 전략텐서 병렬 처리파이프라인 병렬 처리전문가 병렬 처리데이터 병렬 처리컨텍스트(시퀀스) 병렬성하이브리드 병렬 처리추측적 디코딩 및 병렬 토큰 생성 기법두 모델, 초안 기반 추측적 디코딩 및 EAGLE단일 모델 자기 추측적 디코딩메두사의 다중 헤드를 활용한 다중 토큰 디코딩여러 요청의 디코딩 단계 인터리빙디코딩 기법 결합 및 복잡도 평가제한된 디코딩 성능 영향MoE 추론을 위한 동적 라우팅 전략전문가 커뮤니케이션 최적화부하 분산, 용량 계수 및 전문가 복제적응형 전문가 라우팅 및 실시간 모니터링주요 내용결론
16. 대규모 추론 자질, 디버깅 및 튜닝
추론 성능 자질, 디버깅 및 튜닝시스템 메트릭 및 카운터 모니터링Nsight Systems 및 Nsight Compute를 사용한 자질추론 문제 해결 레시피전체 스택 추론 최적화정확성 문제 디버깅동적 배치, 스케줄링 및 라우팅동적 배치지속적 배치지속적 스케줄링스톨 프리 스케줄링 (청크 프리필)지연 시간 인식 스케줄링 및 동적 라우팅시스템 수준 최적화중첩된 통신 및 계산GPU 활용도 및 처리량 극대화 대 지연 시간 상충 관계전력 및 열 제약오류 처리메모리KV 캐시 오프로딩 및 메모리 풀 할당실시간 추론을 위한 양자화 접근법FP16에서 FP8 및 FP4로 정밀도 감소가중치 전용 양자화(GPTQ, AWQ)활성화 양자화훈련 후 양자화 워크플로가중치 및 활성화 양자화 결합양자화-역양자화 단계를 실행 그래프에 통합애플리케이션 수준 최적화prompt 압축prompt 정화접두사 캐싱모델 캐스케이딩 및 계층형 모델 배포스트리밍 응답디바운싱 및 요청 통합토큰 출력 제한 및 타임아웃주요 내용결론
17. 추론을 위한 분산 프리필 및 디코딩 확장
프리필-디코딩 분리를 선택해야 하는 이유분리화의 장점분리된 프리필 및 디코드 클러스터 풀분산 라우팅 및 스케줄링 정책분리된 프리필 및 디코드의 확장성핵심 요약결론
18. 고급 프리필-디코드 및 KV 캐시 튜닝
최적화된 디코드 커널FlashMLA (DeepSeek)ThunderMLA (스탠퍼드)FlexDecoding (PyTorch)KV 캐시 활용도 및 관리 조정분리된 KV 캐시 풀KV 캐시 재사용 및 접두사 공유최적화된 KV 캐시 메모리 레이아웃GPU 및 CPU-GPU 슈퍼칩 개선프리필과 디코드 간 빠른 KV 캐시 전송KV 캐시 크기제로 카피 GPU-to-GPU 전송커넥터 및 데이터 경로 설계프리필 및 디코딩을 위한 이종 하드웨어 및 병렬 처리 전략컴퓨팅 최적화 대 메모리 최적화 하드웨어GPU-CPU 협업을 통한 하이브리드 프리필SLO 인식 요청 관리 및 결함 내결함성조기 거부(입장 제어)서비스 품질결함 내결함성동적 스케줄링 및 부하 분산적응형 리소스 스케줄링 및 핫스팟 방지핵심 요약결론
19. 동적 및 적응형 추론 엔진 최적화
적응형 병렬 처리 전략 (TP 대 PP 대 하이브리드)동적 정밀도 변경트랜스포머 셀프 어텐션 및 MLP 경로를 위한 커널 자동 튜닝동적 공유 메모리 할당 및 점유율 인식 커널 선택더 빠른 TTFT를 위한 추측적 KV 프리페칭실시간 KV 캐시 압축 및 정책 전환런타임에서 AI 시스템 튜닝을 위한 강화 학습 에이전트동적 메모리 할당 전환 (슬래브 대 캐싱 대 스트림 순서)런타임 커널 성능 개선 및 핫 스왑 가능 구현시계열 예측을 이용한 CUDA 그래프 및 캐시의 지속적 사전 예열적응형 배치 및 청크별 사전 채우기 스케줄링다중 GPU를 활용한 혼잡 인식 및 토폴로지 인식 스케줄링NVLink/NVSwitch 토폴로지 및 대역폭 제약실시간 링크 원격 측정 및 모니터링적응형 프로세스-GPU 매핑NCCL을 통한 집단 통신 최적화GPUDirect RDMA를 통한 다중 노드 및 다중 랙 통신MoE 전문가 재조정 및 재그룹화동적 혼잡 인식 스케줄링정밀 조정된 스케줄링을 통한 NVSwitch 전송 조정추가 적응형 및 동적 최적화 기법동적 조기 종료 네트워크입력 인식 레이어 건너뛰기(DASH)추측적 MoE 전문가 라우팅 및 통신 감소LazyLLM을 이용한 동적 토큰 프루닝에지 지향 MoE 메모리 예산 책정동적 양자화 및 활성화 범위 조정주요 내용결론
20. AI 지원 성능 최적화 및 수백만 GPU 클러스터를 향한 확장
GPU 성능을 향상시키는 AlphaTensor AI 발견 알고리즘 (Google DeepMind)DeepSeek-R1을 통한 자동화된 GPU 커널 최적화 (NVIDIA)최적화된 GPU 커널 생성을 위한 강화 학습 접근법 (Predibase)자기 개선형 AI 에이전트 (AI Futures 프로젝트)스마트 컴파일러 및 자동화된 코드 최적화AI 지원 실시간 시스템 최적화 및 클러스터 운영수백만 GPU 클러스터 및 100조 매개변수 모델을 향한 확장주요 요점결론
부록. AI 시스템 성능 점검표 (175개 이상 항목)
성능 튜닝 및 비용 최적화 마인드셋재현성 및 문서화 모범 사례시스템 아키텍처 및 하드웨어 계획통합 CPU-GPU "슈퍼칩" 아키텍처다중 GPU 확장성 및 상호 연결 최적화운영 체제 및 드라이버 최적화GPU 리소스 관리 및 스케줄링I/O 최적화데이터 처리 파이프라인성능 자질, 디버깅 및 모니터링GPU 프로그래밍 및 CUDA 튜닝 최적화커널 스케줄링 및 실행 최적화산술 최적화 및 축소/혼합 정밀도고급 튜닝 전략 및 알고리즘 트릭분산 훈련 및 네트워크 최적화효율적인 추론 및 서비스다중 노드 추론 및 서비스전력 및 열 관리결론
목록
저자 소개

Content preview from AI 시스템 성능 엔지니어링 (Korean Edition)

제18장. 고급 프리필-디코딩 및 키-값 캐시 튜닝

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

본 장은 제17장을 기반으로 추론 프리필 및 디코드 단계에 대한 고급 최적화를 심층적으로 다룹니다. 고수준 확장 전략을 바탕으로 단일 디코드 "메가 커널", 지능형 KV 캐시 튜닝 및 GPU 간 공유, prompt 상태의 빠른 GPU-to-GPU 전송, 적응형 리소스 스케줄링, 프리필 및 디코드 작업자 간 동적 라우팅 등 저수준 기법을 다룹니다.

또한 새로운 수준의 성능과 효율성을 제공하는 하드웨어 및 소프트웨어 혁신을 강조할 것입니다. 이러한 기법을 적용하면 디코드 지연 시간을 크게 줄이고 GPU당 처리량을 향상시키며 대규모 환경에서 엄격한 지연 시간 SLO를 충족할 수 있습니다.

최적화된 디코드 커널

지금까지 우리는 에서 고수준 시스템 및 클러스터 최적화 전략에 집중해 왔습니다. 초고성능 추론을 확장할 때 고려해야 할 또 다른 기술 세트는 저수준 커널 및 메모리 관리 튜닝, 특히 디코딩 단계에 대한 것입니다.

디코딩 단계는 분산 처리되며 종종 메모리 바운디드에 직면합니다. 이로 인해 연구자와 실무자들은 디코딩 단계를 최대한 빠르게 만들고 특정 하드웨어에 최적화하기 위해 노력해 왔습니다. 이 분야에서 주목할 만한 두 가지 혁신은 FlashMLA(DeepSeek), ThunderMLA(Stanford), FlexDecoding(PyTorch)입니다. 이들은 특히 LLM 워크로드에서 흔히 발생하는 가변 시퀀스 시나리오에서 디코딩 중 트랜스포머의 멀티헤드 어텐션 효율성을 목표로 합니다. 이제 각각을 살펴보겠습니다.

FlashMLA (DeepSeek)

Flash Multi-Latent Attention, 즉 FlashMLA 는 DeepSeek에서 도입한 최적화된 디코딩 커널입니다. 이는 다음 토큰을 생성하는 트랜스포머 레이어의 포워드 패스인 단일 토큰 디코딩 단계에 특히 초점을 맞춥니다. FlashMLA는 연산 융합과 GPU 메모리 계층 구조의 효율적 활용을 통해 디코딩 속도를 향상시킵니다.

FlashMLA(디코딩)은 추론에 있어 FlashAttention(프리필)이 훈련에 기여하는 것과 유사한 역할을 합니다. 메모리 접근 오버헤드와 지연 시간을 줄여줍니다. FlashMLA를 사용하면 표준 커널 대비 디코딩 단계에서 상당한 지연 시간 감소를 달성할 수 있습니다.

FlashMLA는 여러 어텐션 연산을 하나로 융합하여 산술 집약도를 높입니다. 이를 통해 하나의 융합 커널 실행으로 여러 헤드와 여러 시간 단계를 처리할 수 있습니다. 이는 작은 배치 크기에도 불구하고 수학 유닛을 지속적으로 활용함으로써 디코딩 중 GPU 사용률을 높입니다. 그림 18-1은 Hopper H100 GPU에서 그룹 쿼리 어텐션(GQA) 및 멀티쿼리 어텐션(MQA)과 같은 다른 어텐션 구현 대비 MLA의 산술 집약도 개선을 보여줍니다. (참고: Blackwell은 더 높은 TFLOPs와 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

PostgreSQL로 데이터 및 AI 플랫폼 구축하기 (Korean Edition)

Publisher Resources

ISBN: 0642572281533

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design