4章データエンジニアリングライフサイクルにおけるテクノロジの選択
最近のデータエンジニアリングは、選択肢が多過ぎて選択できない事態に陥っている。さまざまな種類のデータ問題を解決するテクノロジには事欠かない。オープンソース、マネージドオープンソース、プロプライエタリソフトウェア、プロプライエタリサービスなど、さまざまな選択肢が提供されている。しかし、最先端のテクノロジを追い求めるあまり、データエンジニアリングの核となる目的を見失いがちだ。データエンジニアリングの目的は、データをそのライフサイクル全体を通じて利用し、エンドユーザのニーズに応じてサービスを提供できる、堅牢で信頼性の高いシステムを設計することだ。構造エンジニアが建築家のビジョンを実現するために技術や材料を慎重に選択するのと同じように、データエンジニアは、データをライフサイクルを通じてデータアプリケーションやユーザに提供するために、適切なテクノロジを選択する使命を担っている。
「3章 適切なデータアーキテクチャの設計」で、「良い」データアーキテクチャと、それがなぜ重要なのかを説明した。本章では、良いアーキテクチャを実現するために、適切なテクノロジを選択する方法を説明する。データエンジニアは、可能な限り最高のデータプロダクトを作るために、優れたテクノロジを選択しなければならない。優れたデータテクノロジを選択する基準は単純だ。データプロダクトとビジネス一般に対して付加価値を与えるかどうかだ。
アーキテクチャとツールを混同している人は多い。アーキテクチャは「戦略的」なものであり、ツールは「戦術的」なものだ。「我々のデータアーキテクチャはツールX、Y、Zだ」というような発言を聞くことは多い。このような発言をするエンジニアは、アーキテクチャについての考え方が間違っている。アーキテクチャとは、ビジネスの戦略的目標を満たすデータシステムのハイレベルな設計、ロードマップ、青写真だ。アーキテクチャとは、「何を(What)」「なぜ(Why)」「いつ(When)」行うかを示すものだ。ツールはアーキテクチャを実現するために使用され、「どのように(How)」実現するかを示すものだ。 ...
Get データエンジニアリングの基礎 ―データプロジェクトで失敗しないために now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.