
290
AI
를 위한 필수 수학
7.7
자연어 처리 애플리케이션
지금까지 자연어 텍스트로 주어진 문서를 숫자 벡터로 변환하는 것에 관해 다뤘다. 문서 벡터
를 얻는 방법은 여러 가지이며, 각 방법마다 다양한 벡터 표현으로 이어지거나 주어진 자연어
데이터의 특정 측면을 강조한다는 것을 확인했다. 인공지능을 사용하는 자연어 처리 분야에 입
문하는 사람들에게 문서 벡터 개념은 극복하기 어려운 장벽 중 하나다. 특히 수학적 모델링과
분석에 적합한 수학적 배경을 가진 사람이라면 더욱 그렇다. 벡터 값 자체를 분석해내려 하기
때문이다. 우리는 이 장벽을 극복하고 자연어 데이터에 대한 구체적인 벡터 표현을 갖추었으므
로 이를 활용한 애플리케이션에 대해 수학적으로 생각할 수 있다. 우선은 이제부터 살펴볼 애
플리케이션 각각의 목표를 달성하는 방법이 여러 가지라는 점을 인식해야 한다. 전통적인 접근
법은 하드코딩
hardcoded
된 규칙으로 단어, 마침표, 이모티콘 등에 점수를 부여한 다음 데이터 샘
플에 이와 관련된 항목이 존재하는지에 따라 결과를 생성한다. 최신 접근법은 다양한 머신러닝
모델에 의존하는데 이 모델은 주로 레이블이 있는 데이터셋에 의존한다. 이 분야에서 탁월한
역량을 발휘하려면 시간을 할애하여 동일한 작업에 대해 다양한 모델을 시도하고 성능을 비교
하며 각 모델의 ...