5章ソースシステムにおけるデータ生成

データエンジニアリングライフサイクルの第一ステージ、ソースシステムにおけるデータ生成へようこそ。これまでに説明したように、データエンジニアの仕事は、ソースシステムからデータを取得しそれに対して何かを行い、下流のユースケースで役立つようにすることだ。しかし、生データを入手する前に、データがどこに存在し、どのように生成されているのか、さらに生成の特徴や癖を理解する必要がある。

この章では、一般的なソースシステムの運用パターンと、主要なソースシステムの種類について説明する。データ生成にはさまざまなソースシステムが存在するのでそのすべてを網羅することはできない。本章では、これらのシステムが生成するデータと、ソースシステムで作業する際に考慮すべきことを検討する。また、データエンジニアリングライフサイクル(図5-1)のこの最初のステージに対してデータエンジニアリングの底流がどのように適用されるかについても説明する。

ソースシステムは、以降のデータエンジニアリングライフサイクルデータで使用するデータを生成する

図5-1 ソースシステムは、以降のデータエンジニアリングライフサイクルデータで使用するデータを生成する

データが急増しデータ共有(次で説明する)が一般化するにつれて、データエンジニアの役割が、データソースとデータを受信する側の相互作用を理解することに、大きく変化していくことが予想される。データエンジニアリングの基本的な作業である配管(AからBへのデータ移動)は劇的に単純化される。一方、ソースシステムで作成されるデータの性質を理解することは、これまで通り重要だ。 ...

Get データエンジニアリングの基礎 ―データプロジェクトで失敗しないために now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.