
188
2
부
LLM 활용하기
●
안전성에 대해 어떤 정의를 사용할까요?
●
예를 들어
Llama
2
는 특정 안전성 기준에 맞춰 훈련되었지만 다른 모델은 다른 정의를 따를 수도 있는데, 이
런 차이가 평가 결과에 영향을 주지는 않았을까요?
이처럼 평가 결과를 다각도로 검토하고 질문을 던지는 과정을 거치면 실제로 무엇을 평가하는
지, 그리고 그것이 여러분이 수행하려는 작업에서
LLM
에 기대하는 능력과 얼마나 일치하는지
를 더 깊이 이해할 수 있습니다. 더 신뢰할 수 있는
LLM
평가를 위해서는 목적에 맞는 내부 벤
치마크를 직접 설계하고 운영해 보기를 권장합니다.
CAUTION
_
GPT
-
4
를 비롯한 다른
LLM
이 수행한 평가를 신뢰해서는 안 됩니다. 해당 모델이 어떤 평가 기
준을 사용하는지 명확히 알 수 없으며, 그에 내재된 편향성에 대해서도 깊이 있는 이해가 부족한 상황입니다.
LLM
의 신뢰도 높은 평가는 프롬프트에 대한 민감도와 생성형 모델 특유의 확률적인 특성 때
문에 더 복잡해집니다. 예를 들어 일부 논문에서는 ‘
GPT
-
4
는 추론 능력이 없다’라고 주장하지
만, 평가 시 어떠한 프롬프트 기법도 사용하지 않는 경우가 많습니다. 그러나 이러한 사례 중
상당수는 사고의 사슬(
CoT
) 프롬프트만 활용해도 모델이 충분히 작업을 수행할 수 있음을 보
여줍니다. 평가 프롬프트를 ...