Skip to Content
LLMOps
book

LLMOps

by Abi Aryan
July 2025
Beginner to intermediate
284 pages
4h 39m
Korean
O'Reilly Media, Inc.
Content preview from LLMOps

7장. LLM을 위한 평가

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

언어 모델은 점점 더 정교해지고 있지만, 그 효과를 정확하게 평가하는 것은 여전히 중요한 과제로 남아 있습니다.

LLM 평가의 중요성은 학계뿐만 아니라 업계 이해관계자들로부터도 주목을 받고 있습니다. 이러한 연구와 테스트 노력의 융합은 문제의 중요성과 효과적인 해결책을 찾기 위한 공동의 결의를 의미합니다. 또한 혁신의 속도를 가속화하여 연구자들이 이러한 모델을 더욱 이해하고 개선하는 데 도움이 됩니다.

학계에서는 연구자들이 새로운 방법론을 탐구하고, 혁신적인 지표를 개발하고, 엄격한 실험을 통해 LLM 평가의 경계를 넓히기 위해 노력하고 있습니다. 몇몇 주요 경쟁자가 있지만, 많은 지표와 스코어보드가 단기간 또는 좁은 범위의 애플리케이션에만 유용하기 때문에 아직 명확한 승자는 없습니다. 그럼에도 불구하고 업계 관계자들은 LLM 성과가 갖는 실질적인 의미를 예리하게 인식하고 있습니다.

평가의 핵심은 일관되고 맥락에 맞는 텍스트를 생성하거나, 사용자 입력을 이해하거나, 특정 작업을 완료하는 등 LLM이 의도한 목적을 얼마나 잘 달성하는지를 측정하는 것입니다. 이 장에서는 다양한 애플리케이션에서 이 문제를 해결하기 위해 고안된 체계적인 프레임워크에 대해 알아보고 효과적인 방법에 대한 몇 가지 팁을 소개합니다.

평가가 어려운 문제인 이유

LLM평가 ( )는 성능과 역량을 평가하는 프로세스입니다. 여기에는 LLM이 의도한 목적을 얼마나 잘 달성하고 윤리적 지침을 준수하는지 판단하기 위한 여러 가지 방법이 포함됩니다.

머신러닝 솔루션을 개발하고 배포하려면 기존 소프트웨어 개발에서 사용되는 것과는 다른 새로운 유형의 테스트 및 평가를 만들어야 합니다. 특히 ML 모델은 학습 중에 난수를 사용하며, 학습이 올바르게 작동했는지 검증하는 데 도움이 될 수 있는 특정 원자 데이터뿐만 아니라 데이터 세트 전체에 대해 종합적으로 테스트해야 합니다. 그러나 일단 모델이 학습되면 대부분의 ML 모델은 추론에 무작위 방법을 사용하지 않는다는 점에서 결정론적(즉, 동일한 입력이 항상 동일한 출력을 생성한다는 점에서 결정론적)입니다.

반면, LLM은 학습 및 추론 과정에서 난수를 사용하므로 모델에 변화가 없더라도 동일한 입력이 다른 출력을 생성할 수 있습니다. 다른 몇 가지 가정은 더 이상 유효하지 않거나 보강할 필요가 없습니다. 이 장에서는 데이터 세트, 메트릭 및 방법론 선택과 관련된 몇 가지 미해결 질문에 대해 살펴봅니다.

운영 중인 모든 ML 솔루션은 프로덕션에 들어가기 전에 몇 가지 예상 성능 특성을 제공해야 합니다. 또한 배포 후 성능 문제를 식별하고 해결하기 위해 이를 효과적으로 모니터링할 수 있는 방법이 필요합니다. 모델 평가가 도움이 됩니다:

  • 모델이 예상대로 작동하는지 확인합니다.

  • 모델을 개선할 수 있는 영역 식별

  • 모델이 안전하고 책임감 있게 사용되고 있는지 확인합니다.

LLM ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

LLMOps

LLMOps

Abi Aryan
FastAPI

FastAPI

Bill Lubanovic
Agentic GraphRAG

Agentic GraphRAG

Anthony Alcaraz, Sam Julien

Publisher Resources

ISBN: 9798341663824