4章LLMのためのデータエンジニアリング
本章では、データエンジニアリング、データ管理の実践、利用可能なデータベースのツールとシステムについて学びます。この内容はLLMOpsエンジニアを目指す人や自社のデータエンジニアリングの取り組みを主導したい(データ、DevOps、MLOps)エンジニアを対象としています。本章を通して、データエンジニアリングの基礎とLLMのベストプラクティスをしっかり理解できるようになります。
4.1 データエンジニアリングとLLMの進化
1960年代後半、自己複製コンピューター(self-replicating computers)に関する博士号を取得したばかりの英国の計算機科学者Edgar F. Coddは、IBMで研究を行っていました。Coddはデータの配置理論に強い関心を持ち、1970年にIBMの社内論文として「A Relational Model of Data for Large Shared Data Banks(大規模共有データバンクのためのデータのリレーショナルモデル)」(https://oreil.ly/JG1bn)を発表しました。この論文で、現在リレーショナルデータベースと呼ばれている概念が紹介されました。たとえば、すべてのレコードに製品情報と購入した顧客情報を含む単一の販売テーブルを持つ代わりに、リレーショナルデータベースではデータを複数の関連テーブルに分割して保存します。具体的には、顧客テーブル、製品テーブル、販売テーブルのように分けて管理します。リレーショナルデータベースが登場する以前は、顧客の住所が変更された場合、その顧客に関連するすべての販売レコードを更新する必要がありました。これはメインフレーム環境では非常にコストの高い処理でした。しかしリレーショナルデータベースでは、顧客レコードだけを更新すればよく、関連するデータはそのまま参照関係によって反映されます。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access