NVTX 마커 및 자질 도구병목 현상 식별을 위한 PyTorch 자질PyTorch 프로파일러 사용Nsight Systems 및 NVTX 타임라인을 사용한 시스템 자질일반 행렬 곱셈(GEMM)을 위한 커널 루프라인 분석Linux perf를 사용한 CPU 및 GPU 자질PyTorch 컴파일러(torch.compile)PyTorch 컴파일러 사용컴파일 대 커스텀 커널 작성컴파일 모드와 속도, 메모리, 컴파일 시간 간의 상충 관계지역별 컴파일컴파일러 성능 문제 자질 및 디버깅PyTorch 최적화 어텐션 메커니즘PyTorch 아키텍처 최적화(torchao), 양자화, 스파스성 및 프루닝CUDA 스트림을 통한 동시성통신과 계산의 중첩이벤트를 통한 스트림 동기화MoE 모델에서 CUDA 스트림 사용CUDA 그래프를 통한 커널 실행 오버헤드 감소CUDA 그래프 캡처 및 메모리 사전 할당그래프 재생CUDA 그래프 모범 사례CUDA 그래프 트리 (PyTorch 컴파일러 내부)PyTorch에서 메모리 자질 및 튜닝CUDA 메모리 할당기 조정메모리 절약을 위한 활성화 체크포인트매개변수를 CPU 및 NVMe로 오프로드SuperOffload: 최적화된 CPU-GPU 슈퍼칩 오프로딩FSDP 자동 체크포인트 및 오프로딩FSDP와 텐서 병렬 및 파이프라인 병렬 결합플러그인 가능한 메모리 할당기 및 크로스 GPU 데이터 전송피어 투 피어 DMA 및 UCX 활성화PyTorch 대칭 메모리데이터 입력 파이프라인 최적화PyTorch Distributed를 통한 확장torch.compile을 통한 DDPtorch.compile을 사용한 FSDPtorch.compile을 사용한 텐서 및 파이프라인 병렬 처리TorchTitan, AsyncTP, AutoParallel 및 SimpleFSDPHTA를 사용한 멀티 GPU 자질지속적 통합 및 성능 벤치마킹PyTorch HUD 성능 대시보드성능 벤치마크 및 MLPerf 로깅주요 내용결론