7章データ取り込み
これまでに、データエンジニアとして遭遇するであろうソースシステムと、データの保存方法について学んだ。次は、さまざまなソースシステムからデータを取り込む際に適用されるパターンと選択肢について考えてみよう。本章では、データの取り込み(data ingestion、図7-1を参照)について説明する。取り込みフェーズで考慮すべき重要なエンジニアリング上の課題、2つの主要なパターン(バッチ取り込みとストリーミング取り込み)、遭遇するであろう技術、データ取り込みパイプラインを開発する際に協力する相手、取り込みフェーズにおける底流について議論する。
7.1 データ取り込みとは
データ取り込みとは、データをある場所から別の場所に移動するプロセスである。データ取り込みは、データエンジニアリングライフサイクルにおいて、ソースシステムからストレージへデータを移動することを意味する。取り込みはこの2つの中間にあたる(図7-2)。
ここで、データ取り込みとデータ統合を簡単に比較しておこう。データ取り込みがA地点からB地点へのデータ移動であるのに対し、データ ...
Get データエンジニアリングの基礎 ―データプロジェクトで失敗しないために now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.