Skip to Content
LLMOps
book

LLMOps

by Abi Aryan
July 2025
Intermediate to advanced
284 pages
4h 30m
Japanese
O'Reilly Media, Inc.
Content preview from LLMOps

第7章 LLMの評価 LLMの評価

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com

言語 モデルはますます洗練度を増しているが、その効果を正確に評価することは依然として大きな課題である。

LLM評価の重要性は、学界だけでなく産業界の関係者からも注目されている。このような研究とテストの努力の集結は、問題の重要性と、効果的な解決策を発見しようという集団的な決意を示している。また、イノベーションのペースを加速させ、研究者がこれらのモデルを理解し、さらに改善するのに役立っている。

学界では、研究者が新しい方法論を模索し、革新的なメトリックを開発し、LLM評価の限界を押し広げるために厳密な実験を行っている。有力な候補はいくつかあるが、多くのメトリックやスコアボードは、短期間や狭いアプリケーションセットでしか役に立たないため、明確な勝者はまだいない。とはいえ、業界関係者は、LLMの実績が現実的な意味を持つことを強く認識している。

評価の核心は、首尾一貫した文脈に関連したテキストの生成、ユーザ入力の理解、特定のタスクの完了など、LLMが意図した目的をどれだけ達成できたかを測ることである。この章では、さまざまなアプリケーションのこの課題に取り組むために設計された体系的なフレームワークと、うまくいったヒントについて学ぶ。

評価が難しい理由

LLMの評価とは、LLMのパフォーマンスと能力を評価するプロセスである。LLMがどの程度その目的を達成し、倫理的ガイドラインを遵守しているかを判断するために、様々なメソッドが組み合わされる。

ML ソリューションを開発しデプロイするためには、従来のソフトウェア開発で使用されるものとは異なる、新しいタイプのテストと評価を作成する必要がある。特に、MLモデルはトレーニング時に乱数を使用するため、データセット全体でテストするだけでなく、トレーニングが正しく機能したことを検証するのに役立つ特定の原子性データについてもテストする必要がある。しかし、一旦モデルがトレーニングされると、ほとんどのMLモデルは決定論的であり、推論を行うためにランダムなメソッドを使用しない。

これとは対照的に、LLMはトレーニングや推論を行う際に乱数を使用するため、モデルに変更がなかったとしても、同じ入力が異なる出力を生み出す可能性がある。他にもいくつかの仮定がもはや成り立たないか、補強する必要がある。この章では、データセット、メトリック、手法の選択にまつわるいくつかの未解決の問題を探求する。

どのようなMLソリューションも、本番運用に入る前に、期待されるパフォーマンス特性を提供しなければならない。また、デプロイ後にパフォーマンスの問題を特定し修正するために、効果的にモニターする方法も必要である。モデル評価が役に立つ:

  • モデルが期待通りに機能していることを確認する

  • モデルを改善できる領域を特定する

  • モデルが安全かつ責任を持って使用されていることを確認する。

なぜLLMの評価は難しいのか?理由はいくつかある:

  • 第一に、人間の言語は非常に複雑であり、定量化が困難である。そのため、正確な品質評価メトリックを開発するのは難しい。

  • 言語モデルは通常、大規模なテキストデータセットでトレーニングされる。そのため、評価用に使用するために、モデルが見たことのない代表的なテキストのサンプルを発見することが難しくなる。

  • 言語モデルは、トレーニングされたデータセットに沿ったバイアスを示すことがあり、社会的、倫理的、または法的規範に違反するテキストを生成する。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

LLMOps

LLMOps

Abi Aryan
FastAPI

FastAPI

Bill Lubanovic
Agentic GraphRAG

Agentic GraphRAG

Anthony Alcaraz, Sam Julien

Publisher Resources

ISBN: 9798341663770