21
1
장
GPT 모델과 챗GPT
맥과 문법을 이해하는 데 개선이 필요했습니다.
엔그램 모델의 성능을 개선하기 위해 순환 신경망
recurrent
neural
network
(
RNN
) 및 장단기 기억
long
short
-
term
memory
(
LSTM
) 신경망 등 개선된 알고리즘이 등장했습니다. 오랜 기간 효율적이란 평
가를 받은 이 모델은 기계 번역 도구 등에서 많이 사용됐습니다. 긴 시퀀스를 학습하고, 엔그램
보다 컨텍스트를 더 잘 분석했지만, 여전히 대량의 데이터를 효율적으로 처리하는 능력은 개선
이 필요했습니다.
1.1.2
트랜스포머 아키텍처와
LLM
에서의 역할
트랜스포머 아키텍처는
NLP
에 혁명을 일으켰습니다.
RNN
과 같은 이전
NLP
모델에는 긴 텍
스트 시퀀스를 처리하면서 컨텍스트를 유지하는 데 어려움을 겪는다는 한계가 있습니다. 트랜
스포머는 이러한 문제를 효과적으로 해결했습니다. 즉,
RNN
은 긴 시퀀스에서 컨텍스트를 잊
어버리는 경향이 있었지만 (악명 높은 ‘파괴적 망각
catastrophic
forgetting
’), 트랜스포머는 컨텍스트를
효과적으로 처리하고 인코딩하는 기능을 갖추었습니다.
이를 가능케 한 것은 단순하지만 강력한 아이디어인
어텐션 메커니즘
attention
mechanism
입니다. 이 모
델은 시퀀스의 모든 단어를 똑같이 중요하게 다루지 않고, 작업의 각 단계에서 가장 관련성이
높은 부분에 ‘주의’를 기울입니다.
LLM
에서도 활용된 교차 어텐션과 셀프 어텐션은 어텐션 메
커니즘 기반의 아키텍처입니다. 트랜스포머 아키텍처는 ...