第4章 LLMのためのデータ工学 LLMのためのデータ工学
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
この章では、データエンジニアリング、データ管理のプラクティス、利用可能なデータベースツールとシステムについて学ぶ。この議論は、LLMOps エンジニアになりたい、あるいは自社のデータエンジニアリングの取り組みをリードしたいと考えている、データ、DevOps、MLOps のエンジニアを対象としている。この章が終わるころには、データエンジニアリングの基礎とLLMのベストプラクティスをしっかりと理解していることだろう。
データエンジニアリングとLLMの台頭
1960年代後半、英国のコンピュータ科学者エドガー・F・コッドは、自己複製コンピュータの博士号を取得し たばかりで、IBMで働いていた。コッドはデータ配列の理論に魅了され、1970年にIBMの社内論文 「A Relational Model of Data for Large Shared Data Banks(大規模共有データバンクのためのデータのリレーショナルモデル)」を発表し、今日我々が知っているリレーショナルデータベース を導入した。たとえば、各レコードに商品とその商品を販売した顧客に関するすべての情報が格納されている販売テーブルの代わりに、リレーショナルデータベースはこのデータを、顧客、商品、販売という複数の関連テーブルにストアする。リレーショナル・データベース以前は、顧客の住所を変更するような簡単なことでも、その顧客のすべての販売記録を変更する必要があり、メインフレームでは高価な演算子だった。リレーショナルデータベースでは、顧客レコードだけを変更すれば、関連するすべてのレコードが更新される。
IBMの誰もすぐにこの論文に魅了されることはなかったが、オラクルの創設者であるラリー・エリソン(LarryEllison)氏( )をはじめとする他のコンピュータ科学者や趣味人の興味を引き、彼はIBMメインフレームと互換性のある最初のリレーショナルデータベースを開発・販売した。IBM 、データベースをクエリするための言語も開発した。当初はSEQUEL( )と名付けられたが、現在はSQL( Structured Query Language)と呼ばれ、後に標準となった。1981年、リレーショナルデータベースに関するコッドの研究は、コンピュータサイエンスで最も権威のあるチューリング賞を受賞した。リレーショナルデータベースの人気とそれを管理するシステムの必要性を認識したIBMは、1983年に独自のデータベース管理システム( DB2)を作成した。リレーショナルデータベースは業界標準となり、索引付けやカタログ作成など、あらゆる場所で使われるようになった。IBMやオラクル( )で企業のためにこれらのシステムを管理する人々はデータベース管理者と呼ばれ、通常はDBAと略された。(データエンジニア という肩書きは、2010年代のクラウドコンピューティングと並んで人気となった)。
コッドは後に、 「Providing OLAP to User-Analysts」という論文も執筆している:この論文では、 、多次元データを迅速に処理しクエリするシステムを指すオンライン分析処理(OLAP)という用語が作られた。OLAPは今日、ほとんどのデータプロセシングシステムの基盤となっている。
1990年、ティム・バーナーズ=リー( )がワールド・ワイド・ウェブを作成し、生成・記録されるデータ量が飛躍的に増加した。このデータの多くは構造化されたもので、郵便番号のように最大長や型が固定されたものだが、音楽、エッセイ、ビデオのように長さや型が可変の非構造化データも多かった。リレーショナルデータベースは、あらかじめ定義された列と強く強制されたデータ型を持つテーブルに情報を整理する。テーブル内のすべての行が同じスキーマに従わなければならないため、高度に ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access