제20장. AI 지원 성능 최적화 및 수백만 GPU 클러스터를 향한 확장
이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com
이 장에서는 인간과 AI가 협력하여 AI 시스템 성능을 최적화하는 방식을 보여주는 다양한 사례 연구와 미래 동향을 종합한다. 특히 AI는 수동 작업으로 생성된 커널보다 더 빠르게 실행되는 커널을 만들기 위해 저수준 GPU 코드의 미세 조정을 지원할 수 있다.
더 넓은 맥락에서, 이러한 사례들은 행렬 곱셈과 같은 핵심 연산에서도 알고리즘 혁신이 새로운 하드웨어 도입과 유사한 성능 향상을 가져올 수 있음을 보여줍니다. 높은 수준에서, 일련의 강화 학습 롤아웃(예: 반복자)으로부터 보상 피드백을 사용하는 워크플로를 고려해 보십시오. 이는 그림 20-1에 표시된 바와 같이 환경에 가장 적합한 GPU 커널 코드를 찾는 데 도움이 될 수 있습니다.
이러한 AI 지원 접근법은 성능 향상, 훈련 시간 단축, 운영 비용 절감에 기여할 수 있습니다. 또한 더 작은 시스템에 더 큰 모델을 효율적으로 배포할 수 있게 하여 AI의 미래 발전을 가능하게 합니다. 즉, 이는 더 나은 AI를 만들기 위해 AI가 도움을 주는 것입니다. 우리는 이를 환영합니다!
그림 20-1. 환경에 가장 적합한 GPU 커널 코드 찾기 위한 강화 학습활용
AlphaTensor AI-Discovered Algorithms Boosting GPU Performance (Google DeepMind)
모든 AI 최적화가 코드 수준에서 이루어지는 것은 아닙니다. 때로는 최적화가 알고리즘과 수학의 영역으로 더 깊이 들어갑니다. 획기적인 사례는 2022년 DeepMind의 AlphaTensor 프로젝트에서 나왔는데, 여기서 AI를 활용해 새로운 일반 행렬 곱셈(GEMM) 기법을 발견했습니다.
GEMM은 거의 모든 모델 훈련 및 추론 작업 부하를 뒷받침하는 핵심 연산입니다. GEMM 효율성의 미세한 개선조차도 AI 분야 전체에 막대한 영향을 미칠 수 있습니다. AlphaTensor는 강화 학습을 활용하여 다양한 가능성을 탐색하는 단일 플레이어 게임으로 빠른 알고리즘 탐색을 체계화했습니다.
놀라운 결과는 당시 존재하던 어떤 인간이 고안한 방법보다 우수한 행렬 곱셈 공식을 찾아냈다는 점입니다. 예를 들어 그림 20-2에 표시된 것처럼 2×2 행렬에 대한 스트라센의 유명한 2차 미만 알고리즘을 재발견했을 뿐만 아니라 더 큰 행렬 크기에서도 이를 개선했습니다.
그러나 진정한 검증은 실제 하드웨어에서 해당 알고리즘을 테스트했을 때 이루어졌습니다. AlphaTensor는 NVIDIA Volta V100 GPU 세대에 특화된 방법을 발견했는데, 이는 당시 표준 NVIDIA V100 시대 cuBLAS 라이브러리보다 대형 행렬을 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access