14장. RNN과 주의력을 사용한 자연어 처리
이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com
앨런 튜링( )은 1950년 유명한 튜링 테스트를구상했을 때1 를 상상했을 때, 그는 기계가 인간의 지능과 일치하는 능력을 평가할 수 있는 방법을 제안했습니다. 사진 속 고양이를 인식하는 능력, 체스, 음악 작곡, 미로 탈출 등 여러 가지를 테스트할 수 있었지만, 흥미롭게도 그는 언어 과제를 선택했습니다. 좀 더 구체적으로, 그는 대화 상대를 사람이라고 속일 수 있는 챗봇 ( )을 고안했습니다.2 이 테스트에는 약점이 있습니다. 하드코딩된 일련의 규칙이 의심하지 않거나 순진한 사람을 속일 수 있고(예: 기계가 일부 키워드에 대해 모호한 사전 정의된 답변을 제공하거나, 농담하거나 취한 척하여 이상한 답변을 통과시킬 수 있으며, 어려운 질문에 대해 자신의 질문으로 대답하여 회피할 수 있음), 인간 지능의 많은 측면(예: 표정과 같은 비언어적 의사소통을 해석하거나 수동 작업을 학습하는 능력)이 완전히 무시된다는 점이죠. 하지만 이 테스트는 언어를 습득하는 것이 호모 사피엔스의가장 뛰어난 인지 능력이라는 사실을 강조합니다.
최근까지만 해도 최첨단 자연어 처리(NLP) 모델은 거의 모두 순환 신경망( 13장에서 소개한)을 기반으로 했습니다. 하지만 최근에는 15장에서 살펴볼 트랜스포머로 RNN이 대체되고 있습니다. 그렇긴 하지만 트랜스포머를 더 잘 이해하는 데 도움이 되기 때문에 RNN을 NLP 작업에 어떻게 사용할 수 있는지 알아두는 것은 여전히 중요합니다. 게다가 이 장에서 설명하는 대부분의 기술은 토큰화, 빔 검색, 주의 메커니즘 등 트랜스포머아키텍처에도 유용합니다. 또한 RNN은 최근 상태 공간 모델(SSM) ( https://homl.info 에서 "상태 공간 모델(SSM)" 참조)이라는 형태로 깜짝 등장했습니다.
이 장은 세 개의 섹션으로 구성되어 있습니다. 첫 번째 섹션에서는 문장의 다음 문자를 예측하도록 훈련된 문자 RNN 또는 char-RNN을 구축하는 것으로 시작하겠습니다. 그 과정에서 훈련 가능한 임베딩에 대해 배우게 됩니다. char-RNN은 원본 텍스트를 생성할 수 있는 첫 번째 작은 언어 모델이 될 것입니다.
두 번째 섹션에서는 텍스트 분류, 보다 구체적으로 어떤 텍스트가 얼마나 긍정적인지 부정적인지를 예측하는 감정 분석으로 넘어가겠습니다. 우리 모델은 영화 리뷰를 읽고 영화에 대한 평가자의 느낌을 추정합니다. 이번에는 텍스트를 개별 문자로 분할하는 대신 토큰으로 분할합니다. 토큰 은 영어에서 가장 많이 사용되는 상위 10,000개의 단어 또는 가장 많이 사용되는 하위 단어(예: "smartest" = "smart" + "est") 또는 개별 문자나 바이트와 같은 고정된 크기의 어휘에서 나온 작은 텍스트 조각입니다. 텍스트를 토큰으로 분할하기 위해 토큰화 도구인 를 사용합니다. 이 섹션에서는 데이터 세트를 다운로드할 수 있는 데이터 세트
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access