3章適切なデータアーキテクチャの設計

良いデータアーキテクチャは、データライフサイクルと底流の各ステップにまたがったシームレスな機能を提供する。「データアーキテクチャ」の定義を明確にすることから始め、コンポーネントと考慮事項について議論しよう。それから、特定のバッチパターン(データウェアハウス、データレイク)、ストリーミングパターン、バッチとストリーミングを統一するパターンについても簡単に説明する。これらの説明を通して、スケーラビリティ、可用性、信頼性を提供するためにクラウドの機能を活用することを強調する。

3.1 データアーキテクチャとは何か?

成功するデータエンジニアリングは、石のように強固なデータアーキテクチャの上に築かれる。本章ではいくつかの広く用いられているアーキテクチャのアプローチとフレームワークを紹介し、我々の考える、「良い」データアーキテクチャの条件を定義する。実際、我々はすべての人を満足させることはできないだろう。とはいえ、規模やビジネスプロセスや要求が大きく異なるさまざまな会社に適用できると思われる実用的でドメイン固有の「データアーキテクチャ」の基本的な定義を示す。

データアーキテクチャとは何だろうか? よく考えてみると、あまりよくわからない。データアーキテクチャについて調べてみると、さまざまな定義が見つかるが、相互に矛盾していたり、時代遅れだったりする。「1章 データエンジニアリング概説」で、「データエンジニアリング」について定義したときと同じで、合意された定義はない。変化し続けている領域ではよくあることだ。では、本書の目的に合致する「データアーキテクチャ」とは何だろうか? この単語を定義する前に、この単語がどのような文脈で使われているかを理解することが重要だ。まず、我々のデータアーキテクチャの定義の外側の枠となる、エンタープライズアーキテクチャについて簡単に説明しよう。 ...

Get データエンジニアリングの基礎 ―データプロジェクトで失敗しないために now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.