평가를 위한 벤치마킹 작업을 선택하거나 개발할 때, 실제 작업 자체보다는 해당 작업을 해결하는 데 필요한
능력들을 테스트하는 부분에 초점을 맞추기를 권장합니다. 예를 들어 요약기 애플리케이션을 구축하면서 요약
을 생성하는 데 많은 논리적 추론이 필요하다면, 요약 성능을 테스트하기보다는 논리적 추론 능력을 직접 테스
트하는 벤치마크 테스트에 집중하는 것이 더 좋습니다.
허깅
페이스
오픈
LLM
리더보드
이 책을 집필하는 현재, 오픈
LLM
리더보드
33
는 일루서
AI
의
LM
평가 도구를 사용해
6
개의
벤치마크 작업에서 모델의 성능을 평가합니다.
●
대규모 다중 작업 언어 이해: 대규모 다중 작업 언어 이해
Massive
Multitask
Language
Understanding
(
MMLU
) 테스트는 미
국 역사, 생물학, 수학 등
50
개 이상의 분야에서 가져온 지식 집약적 과제들을 사용해 다지선다형으로
LLM
을
평가합니다.
●
AI2
추론 도전:
AI2
추론 도전
AI2
Reasoning
Challenge
(
ARC
) 테스트는 답하는 데 복잡한 추론과 세계 지식이 필요
한 다지선다형 초등학교 과학 문제들로
LLM
을 평가합니다.
●
Hellaswag
: 이 테스트는
LLM
에 상황을 제공하고 상식에 기반해 주어진 선택지 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.
O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.