序文
私は数十年にわたり大企業のソフトウェア開発に携わってきたが、データの管理は常にアーキテクチャ上の大きな課題だった。私のキャリアの初期には、単一の企業全体のデータモデルに熱狂し、多くの場合、単一の企業全体のデータベースに格納された。しかしすぐに、多数のアプリケーションが共有データストアにアクセスすることは、アドホックな結合の弊害であることがわかった。それでなくても、より深い問題が存在していた。顧客」のような企業にとって核となる考え方は、事業部門ごとに異なるデータモデルを必要とした。企業買収は、さらに問題を泥沼化させた。
そのレスポンスとして、賢明な企業はデータを分散化し、データの保存、モデル化、管理を異なる事業部門に押し付けている。そうすることで、その領域のデータを最もよく理解している人々が、そのデータの管理に責任を持つ。彼らは、明確に定義されたAPIを通じて他のドメインとコラボレーションする。これらのAPIは振る舞いを含むことができるため、データの共有方法や、さらに重要なこととして、データ管理を長期的にどのように進化させるかについて、より柔軟性を持つことができる。
日常的な演算子では、この方法がますます主流になってきているが、データ分析は、より中央集権的な活動であり続けてきた。データウェアハウスは、重要な情報を集めた企業リポジトリを提供することを目的としていた。しかし、このような中央集権的なグループは、特にデータやそのコンシューマのニーズをよく理解していなかったため、その作業や相反する顧客との間で苦労していた。データレイクは、未加工データへのアクセスを一般化し、アナリストがオリジナルのソースに近づくことを可能にすることで役立ったが、あまりに簡単に、不十分な理解と出所不明のデータ沼と化した。
Data Meshは、我々が演算子で学んだのと同じ教訓を分析データの世界に適用しようとしている。事業部門のドメインは、APIを通じて分析データを公開する責任を負うようになる。データを第一級の製品として扱うことで、データの意味と出所を伝え、コンシューマと協力する。このような作業を実現するために、企業はこれらのデータ製品を構築し公開するためのプラットフォームを提供する必要がある。これらすべてを貫くのは、ビジネスニーズの変化に応じてプラットフォームや製品を迅速に進化させることができるよう、卓越した技術力の重要性を認識することである。
このようにデータメッシュは、分析データの世界に、確立されたデータ管理の原則を適用したものである。特に、ベンダの投資の多くが集中型モデルに集中しており、健全なソフトウェアに不可欠であることをオペレーティングシステムの開発者が知っているプラクティス(テスト、抽象化構築、リファクタリングなど)をサポートしていないことが、この問題を悪化させている。
ザマックはその最前線に立ち、クライアントに今後のパスについてアドバイスし、クライアントの挫折と勝利から学び、ベンダにこうしたプラットフォームの構築を容易にするツールのプロデューサを働きかけてきた。本書は、世界中でデータメッシュが採用される初期の、しかし重要な段階における彼女と彼女の同僚たちの知識を集めたものである。私は本書を読みながら、こうした現実的な困難について多くのことを学んだ。そして、組織がデータリソースを最大限に活用することを望む人なら誰でも、本書が私たちの理解する最善の道を示していることに気づくはずだと確信している。
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access