Skip to Main Content
データエンジニアリングの基礎 ―データプロジェクトで失敗しないために
book

データエンジニアリングの基礎 ―データプロジェクトで失敗しないために

by Joe Reis, Matt Housley, 中田 秀基
March 2024
Beginner to intermediate content levelBeginner to intermediate
416 pages
6h 54m
Japanese
O'Reilly Japan, Inc.
Content preview from データエンジニアリングの基礎 ―データプロジェクトで失敗しないために

2章データエンジニアリングライフサイクル

本書は、データエンジニアリングを特定のデータ技術の集まりとして考えるのをやめ、その先に進むことを促すことを主な目標としている。データ関連技術は、新たなデータ技術とプラクティスの爆発的な増加にさらされている。抽象化が進み、使いやすさも向上した。技術の抽象化が進むことで、データエンジニアはデータライフサイクル管理の「原則」に基づいて考え運用する、「データライフサイクルエンジニア」へと変化していく。

本章では、本書の中心テーマである「データエンジニアリングライフサイクル」について学ぶ。データエンジニアリングライフサイクルは、データの「ゆりかごから墓場まで」を説明するフレームワークだ。また本章では、データエンジニアリングのすべてを支える重要な基盤である、データエンジニアリングライフサイクルの底流についても学ぶ。

2.1 データエンジニアリングライフサイクルとは何か?

データエンジニアリングライフサイクルは、生データを有用な最終プロダクトに変えていく複数のステージで構成される。最終プロダクトは、アナリスト、データサイエンティスト、MLエンジニアなどが消費できる形だ。本章では、データエンジニアリングライフサイクルの主要なステージを紹介し、各ステージの中核となる概念に焦点を当てる。個々のステージの詳細は後の章に譲る。

本書では、データエンジニアリングライフサイクルを以下の5つのステージに分けて考える(図2-1上部)。

  • 生成
  • 保存
  • 取り込み
  • 変換
  • 提供

    図2-1 データエンジニアリングライフサイクルの構成要素と底流

データエンジニアリングライフサイクルは、ソースシステムからデータを取得し、それを保存することから始まる。それからデータを変換し、我々の主な対象であるアナリスト、データサイエンティスト、MLエンジニアなどへのデータ提供へと進む。「保存」は、実際にはデータが先頭から末尾にまで流れていくのに伴って、ライフサイクル全体で行われる。このため図中では「保存」ステージを他のステージの下にある基盤として描いている。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

大規模データ管理 ―エンタープライズアーキテクチャのベストプラクティス

大規模データ管理 ―エンタープライズアーキテクチャのベストプラクティス

Piethein Strengholt, 村上 列
ユーザーストーリーマッピング

ユーザーストーリーマッピング

Jeff Patton, 川口 恭伸, 長尾 高弘

Publisher Resources

ISBN: 9784814400652Publisher Website