March 2024
Beginner to intermediate
416 pages
6h 54m
Japanese
これまでに、データエンジニアとして遭遇するであろうソースシステムと、データの保存方法について学んだ。次は、さまざまなソースシステムからデータを取り込む際に適用されるパターンと選択肢について考えてみよう。本章では、データの取り込み(data ingestion、図7-1を参照)について説明する。取り込みフェーズで考慮すべき重要なエンジニアリング上の課題、2つの主要なパターン(バッチ取り込みとストリーミング取り込み)、遭遇するであろう技術、データ取り込みパイプラインを開発する際に協力する相手、取り込みフェーズにおける底流について議論する。
図7-1 データ処理を行うには、まずデータを取り込む必要がある
データ取り込みとは、データをある場所から別の場所に移動するプロセスである。データ取り込みは、データエンジニアリングライフサイクルにおいて、ソースシステムからストレージへデータを移動することを意味する。取り込みはこの2つの中間にあたる(図7-2)。
図7-2 ソースシステムからストレージにデータを取り込む
ここで、データ取り込みとデータ統合を簡単に比較しておこう。データ取り込みがA地点からB地点へのデータ移動であるのに対し、データ ...