2章データエンジニアリングライフサイクル
本書は、データエンジニアリングを特定のデータ技術の集まりとして考えるのをやめ、その先に進むことを促すことを主な目標としている。データ関連技術は、新たなデータ技術とプラクティスの爆発的な増加にさらされている。抽象化が進み、使いやすさも向上した。技術の抽象化が進むことで、データエンジニアはデータライフサイクル管理の「原則」に基づいて考え運用する、「データライフサイクルエンジニア」へと変化していく。
本章では、本書の中心テーマである「データエンジニアリングライフサイクル」について学ぶ。データエンジニアリングライフサイクルは、データの「ゆりかごから墓場まで」を説明するフレームワークだ。また本章では、データエンジニアリングのすべてを支える重要な基盤である、データエンジニアリングライフサイクルの底流についても学ぶ。
2.1 データエンジニアリングライフサイクルとは何か?
データエンジニアリングライフサイクルは、生データを有用な最終プロダクトに変えていく複数のステージで構成される。最終プロダクトは、アナリスト、データサイエンティスト、MLエンジニアなどが消費できる形だ。本章では、データエンジニアリングライフサイクルの主要なステージを紹介し、各ステージの中核となる概念に焦点を当てる。個々のステージの詳細は後の章に譲る。
本書では、データエンジニアリングライフサイクルを以下の5つのステージに分けて考える(図2-1上部)。
- 生成
- 保存
- 取り込み
- 変換
- 提供
データエンジニアリングライフサイクルは、ソースシステムからデータを取得し、それを保存することから始まる。それからデータを変換し、我々の主な対象であるアナリスト、データサイエンティスト、MLエンジニアなどへのデータ提供へと進む。「保存」は、実際にはデータが先頭から末尾にまで流れていくのに伴って、ライフサイクル全体で行われる。このため図中では「保存」ステージを他のステージの下にある基盤として描いている。 ...
Get データエンジニアリングの基礎 ―データプロジェクトで失敗しないために now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.