Skip to Main Content
データエンジニアリングの基礎 ―データプロジェクトで失敗しないために
book

データエンジニアリングの基礎 ―データプロジェクトで失敗しないために

by Joe Reis, Matt Housley, 中田 秀基
March 2024
Beginner to intermediate content levelBeginner to intermediate
416 pages
6h 54m
Japanese
O'Reilly Japan, Inc.
Content preview from データエンジニアリングの基礎 ―データプロジェクトで失敗しないために

5章ソースシステムにおけるデータ生成

データエンジニアリングライフサイクルの第一ステージ、ソースシステムにおけるデータ生成へようこそ。これまでに説明したように、データエンジニアの仕事は、ソースシステムからデータを取得しそれに対して何かを行い、下流のユースケースで役立つようにすることだ。しかし、生データを入手する前に、データがどこに存在し、どのように生成されているのか、さらに生成の特徴や癖を理解する必要がある。

この章では、一般的なソースシステムの運用パターンと、主要なソースシステムの種類について説明する。データ生成にはさまざまなソースシステムが存在するのでそのすべてを網羅することはできない。本章では、これらのシステムが生成するデータと、ソースシステムで作業する際に考慮すべきことを検討する。また、データエンジニアリングライフサイクル(図5-1)のこの最初のステージに対してデータエンジニアリングの底流がどのように適用されるかについても説明する。

ソースシステムは、以降のデータエンジニアリングライフサイクルデータで使用するデータを生成する

図5-1 ソースシステムは、以降のデータエンジニアリングライフサイクルデータで使用するデータを生成する

データが急増しデータ共有(次で説明する)が一般化するにつれて、データエンジニアの役割が、データソースとデータを受信する側の相互作用を理解することに、大きく変化していくことが予想される。データエンジニアリングの基本的な作業である配管(AからBへのデータ移動)は劇的に単純化される。一方、ソースシステムで作成されるデータの性質を理解することは、これまで通り重要だ。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

大規模データ管理 ―エンタープライズアーキテクチャのベストプラクティス

大規模データ管理 ―エンタープライズアーキテクチャのベストプラクティス

Piethein Strengholt, 村上 列
ユーザーストーリーマッピング

ユーザーストーリーマッピング

Jeff Patton, 川口 恭伸, 長尾 高弘

Publisher Resources

ISBN: 9784814400652Publisher Website