모델은 수치화된 값에 의존하므로 정보를 처리하려면 먼저 수치로 변환해야 합니다. 그러나 단
어와 토큰을 비롯해 많은 요소는 수치가 아닙니다. 수치가 아닌 값을 수치형인 벡터로 개념화
하는 것을 임베딩
embedding
이라고 합니다. 임베딩을 통해 컴퓨터가 데이터 간 관계를 수치로 표
현하고 더 효율적으로 처리할 수 있습니다. 오픈
AI
는 텍스트를 수치 벡터로 변환하는 모델을
제공합니다. 개발자는 임베딩 엔드포인트를 활용해 입력 텍스트에 대한 벡터 값을 얻을 수 있
습니다. 이 벡터 표현은 다른
ML
모델과
NLP
알고리즘의 입력으로도 사용할 수 있습니다.
TIP
오픈
AI
의 임베딩과 관련된 자세한 사항은 공식 문서(
https
://
oreil
.
ly
/
KnfHs
)에서 확인할 수 있습니다.
임베딩의 원리는 텍스트 문자열을 의미상 유사한 공간에 표현하는 것입니다. 임베딩된 데이터를 다음과 같은 다양한 형
태로 활용할 수 있습니다.
●
검색: 쿼리 문자열과의 관련성을 기준으로 결과를 정렬합니다.
●
추천: 쿼리 문자열과 관련된 텍스트 문자열이 포함된 문서를 추천합니다.
●
군집화: 유사도별로 문자열을 그룹화합니다.
●
이상 탐지: 다른 문자열과 관련이 없는 텍스트 문자열을 찾습니다.
주목할 만한 활용법으로
검색 증강 생성
(
RAG
) 시스템이 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.
O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.