
230
GPT API를 활용한 인공지능 앱 개발(2판)
다이어그램은 작업의 흐름을 시각적으로 표현한 것으로 프롬프트 엔지니어링,
RAG
, 파인 튜
닝이 적합한 상황을 나타냅니다. 뒤로 돌아가는 화살표가 많은 점에서 알 수 있듯이, 반복적 작
업이 중요합니다. 이 다이어그램에는 다양한 판단 기준이 존재합니다. 다음 절에서 자세히 알
아봅시다.
4.4.2
평가
시스템을 개선할 때 복잡한 해결책을 무작정 시도하기보다 작은 부분부터 점진적으로 개선해
나가는 것이 좋습니다. 이를 위해서는 솔루션과 구현을 다양한 기준에서 효과적으로 비교할 수
있도록 결과를 평가하는 것이 매우 중요합니다. 평가 기준으로는 관련성, 환각 현상, 질문 답변
의 정확도, 유해성, 그리고 검색 관련 지표 등이 있습니다. 프로젝트의 잠재적 결함, 회귀, 모델
변화를 감지하기 위해
LLM
평가를 자동화하는 것도 좋습니다.
평가에 사용하는 외부 도구는
5
장에서 소개합니다. 오픈
AI
도 평가에 사용하는 프레임워크
evals
(
https
://
oreil
.
ly
/
4JGmp
)를 제공합니다.
TIP
evals
의 사용법은 오픈
AI
에서 제공하는 문서(
https
://
oreil
.
ly
/
fTFCI
)를 확인하세요.
또한,
ML
플로
MLflow
와 같은 잘 알려진 도구들은
LLM
평가 (
https
://
oreil
.
ly
/
V6P2u
)를