Skip to Content
AIエンジニアリング ―基盤モデルを用いたAIアプリケーション開発の基礎と実践
book

AIエンジニアリング ―基盤モデルを用いたAIアプリケーション開発の基礎と実践

by Chip Huyen, 加賀谷 諒, 菅野 憲也
November 2025
Intermediate to advanced
544 pages
9h
Japanese
O'Reilly Japan, Inc.
Content preview from AIエンジニアリング ―基盤モデルを用いたAIアプリケーション開発の基礎と実践

8章データセットエンジニアリング

モデルの品質は学習データの品質に依存します。世界最高の機械学習チームが無限の計算能力を持っていても、データがなければ良いモデルをファインチューニングすることはできません。データセットエンジニアリングの目標は、理想的には予算内で最高のモデルを訓練できるデータセットを作成することです。

モデルをゼロから開発できる企業が減るにつれ、AIの性能で差別化を図るためにデータに注目する企業が増えています。モデルがより多くのデータを必要とするようになると、その取り扱いはさらに難しくなり、人材とインフラへの投資が一層求められます†1

[†1] データの重要性の高まりは、GPT-3からGPT-4にかけてのデータへの取り組みの変化にも表れています。GPT-3のコントリビューターリスト(OpenAI, 2020, https://oreil.ly/R4-VI)では、データの収集、フィルタリング、重複排除、そして学習データの重複分析の担当者としてクレジットされていたのはわずか2人でしたが、この状況は3年後には劇的に変わりました。GPT-4(OpenAI, 2023, https://oreil.ly/F9Fyc)では、さまざまなデータプロセスに関与したとして80人の名前がクレジットされています。このリストには、OpenAIがデータプロバイダーを通じて契約したデータアノテーターは含まれていません。ChatMLフォーマットという単純に聞こえるものに対しても、11人が関与し、その多くはシニアリサーチャーでした。2016年のAMA(ask me anything)スレッド(https://oreil.ly/h-lAl)で、OpenAIの共同創設者の1人であるWojciech Zarembaは、研究の大部分を公開されているデータセットを使用して行うつもりだと述べていました。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

行動を変えるデザイン ―心理学と行動経済学をプロダクトデザインに活用する

行動を変えるデザイン ―心理学と行動経済学をプロダクトデザインに活用する

Stephen Wendel, 武山 政直, 相島 雅樹, 反中 望, 松村 草也
生成AI時代の価値のつくりかた ―実践者のマインド、スキル、データ、ユースケース

生成AI時代の価値のつくりかた ―実践者のマインド、スキル、データ、ユースケース

Rob Thomas, Paul Zikopoulos, Kate Soule, 本多 真二郎, オライリー・ジャパン編集部

Publisher Resources

ISBN: 9784814401383Publisher Website