17장. 트랜스포머의 속도 향상
이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com
15장과 16장에서는 분류기, 번역기, 챗봇부터 비전 및 멀티모달 트랜스포머에 이르기까지 모든 종류의 트랜스포머를 구축했습니다. 트랜스포머는 놀라울 정도로 다재다능하고 강력하지만 완벽하지는 않습니다. 특히 긴 입력 시퀀스를 처리할 때는 속도가 매우 느려질 수 있습니다.
다행히도 모든 크기의 트랜스포머의 속도를 높이기 위한 많은 기술이 개발되었습니다:
-
생성 트랜스포머의 디코딩 속도를 높이기 위해 키/값 캐싱과 추측 디코딩을 사용한 다음 텍스트 생성을 병렬화하는 몇 가지 접근 방식을 간략히 살펴보겠습니다.
-
트랜스포머에서 가장 계산 비용이 많이 드는 구성 요소 중 하나인 다중 헤드 주의(MHA)를 가속화하기 위해 스파스 주의, 근사 주의, 공유 투영 및 플래시 주의에 대해 살펴봅니다.
-
최대 수조 개의 파라미터로 구성된 거대한 트랜스포머의 속도를 높이기 위해 전문가 혼합(MoE)에 대해 알아볼 것입니다.
-
대규모 트랜스포머를 효율적으로 훈련하기 위해 LoRA(Low-Rank Adaptation), 활성화 체크포인트, 시퀀스 패킹, 그라데이션 누적, 병렬 처리와 같은 어댑터를 사용한 파라미터 효율적 미세 조정(PEFT)에 대해 설명합니다.
팁
트랜스포머의 속도를 높이는 또 다른 방법은 트랜스포머를 작게 만드는 것입니다. 이는 부록 B에서 설명하는 정밀도 감소 및 양자화를 사용하여 수행할 수 있습니다.
다룰 기술이 상당히 많고 상당히 고급 기술이기 때문에 트랜스포머를 처음 접하는 분이라면 지금은 이 장을 건너뛰고 나중에 필요할 때 언제든지 다시 보셔도 됩니다. 그렇기 때문에 이 장은 다른 장을 위한 공간을 확보하기 위해 https://homl.info 에서 온라인 전용으로 제공됩니다.
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access