Skip to Content
AI 시스템 성능 엔지니어링 (Korean Edition)
book

AI 시스템 성능 엔지니어링 (Korean Edition)

by Chris Fregly
November 2025
Beginner to intermediate
1060 pages
20h 15m
Korean
O'Reilly Media, Inc.
Content preview from AI 시스템 성능 엔지니어링 (Korean Edition)

제8장. 점유율 조정, 워프 효율성 및 명령어 수준 병렬성

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

현대 GPU 가속 워크로드는 하드웨어의 한계를 시험하고 있습니다. Blackwell과 같은 멀티 다이 GPU는 10TB/s NV-HBI 링크로 여러 레티클 제한 다이들을 연결하고 L2 캐시를 126MB로 확장합니다. 이러한 하드웨어 설계 선택은 메모리 대 컴퓨팅 트레이드오프와 점유율 최적 지점을 근본적으로 변화시킵니다. 이로 인해 프로파일과 최적화는 그 어느 때보다 중요해졌습니다. 메모리 최적화의 기초를 바탕으로, 이제 현대 GPU의 모든 성능을 최대한 활용하도록 설계된 고급 지연 시간 숨기기 기법과 처리량 향상 기법으로 넘어갑니다.

성능 병목 현상을 식별한 후 체계적인 최적화 전략을 적용하여 하나씩 제거하는 데 중점을 둘 것입니다. 본 장의 주요 주제는 점유율 조정, 워프 효율 최적화, 명령어 수준 병렬성 증대입니다.

본 장을 마치면 GPU 활용도 저하의 근본 원인을 파악하고 적절한 최적화 조합을 적용할 수 있게 될 것입니다. 또한 후속 장에서 다룰 CUDA 그래프 및 CUDA 스트림과 같은 프리미티브를 활용한 커널 융합 및 파이프라이닝 같은 고급 기법에 대한 준비도 갖추게 됩니다.

CUDA C++ 같은 고수준 언어와 PyTorch 같은 AI 프레임워크에 중점을 두지만, 자질과 튜닝의 원칙은 하드웨어 수준까지 스택의 모든 계층에 적용됩니다. 따라서 고수준 추상화로 완전히 해결하기 어려운 병목 현상을 진단하려면 저수준 하드웨어 성능에 대한 이해가 여전히 중요합니다.

GPU 병목 현상 자질 및 진단

최적화하기 전에 먼저 코드 내 병목 현상 을 식별하여 성능을 제한하는 하드웨어 또는 소프트웨어 리소스를 파악해야 합니다. 현대 NVIDIA GPU는 복잡하며, 메모리 대역폭, 메모리 지연 시간, 명령어 처리량, 동기화 오버헤드, 불충분한 병렬 처리, 호스트-장치 전송 지연 등 다양한 원인으로 속도 저하가 발생할 수 있습니다.

NVIDIA의 자질 생태계에는 Nsight Systems(명령줄 인터페이스 nsys)와 Nsight Compute(명령줄 인터페이스 ncu)가 포함됩니다. Nsight Systems는 CPU 스레드, GPU 커널, 메모리 전송의 시스템 수준 타임라인을 캡처합니다. 또한 Python 백트레이스와 Python 샘플링도 캡처할 수 있습니다.

PyTorch 프로파일러 및 다양한 시각화 도구와 결합하면 Nsight Systems 및 Nsight Compute를 통해 커널 성능 병목 현상을 진단하고, 루프라인 플롯을 분석하며, 반복적 최적화 작업의 효과를 측정할 수 있습니다.

Nsight Systems 타임라인 뷰

Nsight Systems 타임라인 뷰 는 동시성 문제, 전송 오버헤드 및 유휴 기간을 정확히 파악하는 데 도움이 됩니다. 예를 들어, 다음 코드를 실행하면 커널 런치 중복, CPU 준비 간격, 데이터 전송 타이밍 및 NVTX로 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

PostgreSQL로 데이터 및 AI 플랫폼 구축하기 (Korean Edition)

PostgreSQL로 데이터 및 AI 플랫폼 구축하기 (Korean Edition)

Tom Taulli, Benjamin Anderson, Jozef de Vries
도메인 중심 혁신 (Korean Edition)

도메인 중심 혁신 (Korean Edition)

Carola Lilienthal, Henning Schwentner
AI 에이전트를 위한 메모리 관리

AI 에이전트를 위한 메모리 관리

Benjamin Labaschin, Jim Allen Wallace, Andrew Brookins, Manvinder Singh

Publisher Resources

ISBN: 0642572281533