이 됩니다. 하지만 다양한 사용자의 의견을 집계한 것이므로 여러분의 사용 사례와 관련이 없
을 수 있습니다.
결론적으로
LLM
을 평가하는 하나의 완벽한 방법이란 존재하지 않습니다. 언급한 모든 방법과
벤치마크가 제한적이지만 중요한 평가 관점을 제공합니다. 여러분이 의도한 사용 사례를 기반
으로
LLM
을 평가하는 것이 좋습니다. 코딩의 경우
GSM8k
보다
HumanEval
을 사용하는 것
이 더 합리적입니다.
하지만 무엇보다 중요한 것은 여러분이 최상의 평가자라는 점입니다.
LLM
이 여러분의 사용 사
례에 잘 맞는지 결정하는 것은 여러분 자신이기 때문에 사람 평가가 가장 신뢰할 수 있는 방법
입니다. 이 장에서 소개된 예제에서처럼 직접 모델을 테스트하고 질문을 던져 보세요. 이 책의
저자들은 아랍어(제이)와 네덜란드어(마르턴)를 사용하는데 새로운 모델을 만날 때마다 모국
어로 질문을 던지곤 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.
O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.