book

データエンジニアリングの設計パターン

by Bartosz Konieczny

April 2025

Beginner to intermediate

374 pages

5h 49m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

本書で使用されている慣例本書の構成本書の使い方本書を読み進める前に知っておくべきことは何か？用語集とコード例オライリー・オンライン・ラーニング問い合わせ先謝辞
デザインパターンとは何か？さらにデザインパターン？一般的なデータエンジニアリングパターン本書で使用したケーススタディ概要
フルロードパターンフルローダーインクリメント負荷パターンインクリメントローダーパターンデータキャプチャを変更するレプリケーションパターンパススルー・レプリケーターパターントランスフォーメーション・リプリケーターデータ圧縮パターンコンパクターデータの準備パターンレディネス・マーカーイベント・ドリブンパターン：外部トリガー概要
処理不能な記録パターンデッドレター重複記録パターン窓付きデュプリケーター後期データパターン後期データ検出器パターンスタティック・レイト・データ・インテグレーターパターンダイナミック・レイト・データ・インテグレーターフィルタリングパターンフィルターインターセプターフォールト・トレランスパターンチェックポインター概要
上書きパターン高速メタデータクリーナーパターンデータの上書き更新情報パターン合併パターンステートフル・マージャーデータベースパターンキー付きべき乗パターントランザクション・ライター不変性データセットパターンプロキシ概要
データの充実パターンスタティック・ジョイナーパターンダイナミック・ジョイナーデータデコレーションパターンラッパーパターンメタデータ・デコレーターデータ集約パターン分散アグリゲーターパターンローカル・アグリゲーターセッション化パターンインクリメント・セッショナイザーパターン：ステートフルセッショナイザーデータの注文パターンビンパックオーダーパターンFIFOオーダラー概要
シーケンスパターンローカル・シーケンサーパターンアイソレーテッド・シーケンサーファンインパターン：整列ファンインパターン：アンアライン・ファンインファンアウトパターン：パラレルスプリットパターンエクスクルーシブ・チョイスオーケストレーションパターンシングルランナーパターンコンカレント・ランナー概要
データ削除パターンバーチカル・パーティショナーパターンインプレイス・オーバーライターアクセス・コントロールパターン：テーブルのきめ細かいアクセッサーパターン：リソースのきめ細かいアクセッサーデータ保護パターン暗号機パターンアノニマイザーパターン疑似匿名化コネクティビティパターンシークレット・ポインターパターンシークレットレス・コネクター概要
パーティショニングパターン水平パーティショナーパターンバーチカル・パーティショナー記録組織パターンバケットパターンソーター読み取り性能の最適化パターンメタデータ・エンハンサーパターンデータセット・マテリアライザーパターンマニフェストデータ表現パターンノーマライザーパターンデノーマライザー概要
品質執行パターン監査-執筆-監査-出版パターンコンストレインツ・エンフォーサースキーマの一貫性パターンスキーマ互換性エンフォーサーパターンスキーマ・マイグレーター品質観察パターンオフライン・オブザーバーパターンオンラインオブザーバー概要

データ検出器パターンフロー中断検出器パターンスキュー検出器時間検出器パターンラグ検出器パターンSLAミス検出器データの系譜パターンデータセットトラッカーパターンファイングレイントラッカー概要
データ・インジェスト・デザイン・パターンエラー管理のデザインパターンべき等デザインパターンデータバリューのデザインパターンデータフローデザインパターンデータセキュリティのデザインパターンデータストレージのデザインパターンデータ品質デザインパターンデータ可観測性デザインパターン

Content preview from データエンジニアリングの設計パターン

第9章. データ品質デザインパターン

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

信頼はデータセットの重要な価値である。データ交換は相互取引のようなもので、サービス（データセット）を提供するか消費するかのどちらかである。最終的なゴールは、プロデューサとコンシューマがデータセットの交換に満足することである。残念ながら、信頼できないデータセットで仕事をすることに興奮することはほとんどないだろう。データセットから引き出される洞察は、いつ間違っていてもおかしくないからだ。

信頼を失う原因の一つはデータセットの質の低さであり、これは不完全さ、不正確さ、矛盾の問題を意味する。しかし、良いニュースは、これらの問題は目新しいものではなく、データエンジニアがこれらの問題と戦い続けているとしても、データ品質の問題を軽減するデザインパターンがいくつかあるということだ。

この章では、3つの異なるカテゴリーに分類されたデザインパターンの助けを借りて、データ品質の問題に対処する。最初のカテゴリーでは、どのようにして品質を強制し、品質の低いデータを下流のコンシューマに公開しないようにするかについて説明する。

次のパートでは、スキーマレベルでデータ品質の問題に対処する方法を説明する。多くの場合、プロデューサはスキーマを変更するまでは、何の問題もなくデータを生成することができる。進化のタイプによっては、これはパイプラインの致命的な失敗につながり、データプロバイダーの信頼を失うことになるかもしれない。

最後のパートでは、今日の実施規則が明日のデータにも有効であることを保証する方法について説明する。そのためには、データとスキーマを管理することに加えて、データセットを観察し、コンシューマよりも先に新たな問題を発見することが重要である。このような観察テクニックは、処理されたデータセットの最新の概要を提供することで、実施規則を常に最新の状態に保つのに役立つ。

これはこの章の文脈に過ぎない。もっと具体的な例を見てみたいという方は、品質執行に関する第1章をご覧いただきたい。

品質執行

データセットの品質を保証するということは、不完全な、一貫性のない、あるいは不正確なデータセットを共有しないことを意味する。したがって、品質確保は、信頼できるデータを共有することを目標に、パイプラインに適用するデータ品質パターンの最初のカテゴリーである。

パターン監査-執筆-監査-出版

データセットの品質を保証する最初の方法は、データフローにコントロールを追加することである。このアプローチは、単体テストにおけるアサーションに似ており、想定される入力に対してコードが正しく動作しているかどうかを検証する。このようなアサーションをデータフローに置き換えることで、データセットが期待にそぐわない場合に実行全体を停止するようなデータ品質ガードをパイプラインに作り出すことができる。

問題

あなたの日次バッチETLジョブは、第1章の図1-1に戻って示されたユーザ訪問の統計を生成する。この1週間、結果は芳しくない。実際、ユニークビジター数は50％減少し、製品チームはこれを問題視している。その結果、Webサイトに訪問者を呼び込むための新しいマーケティング・キャンペーンを開始した。

今日、あなたはこの仕事の新機能に取り組んでいたとき、ユニークビジターの集計が正しく計算されていないことを発見した。あなたは製品チームに報告し、製品チームはキャンペーンを中止したが、今後同様の問題が起こらないようにするようあなたに依頼した。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341640931Supplemental Content

データエンジニアリングの設計パターン

by Bartosz Konieczny

第9章. データ品質デザインパターン

品質執行

パターン監査-執筆-監査-出版

問題

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

FastAPIで生成型AIサービスを作る

データガバナンス定義ガイド

システム思考を学ぶ

AI支援プログラミング

Publisher Resources

第9章. データ品質デザインパターン

品質執行

パターン監査-執筆-監査-出版

問題

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

FastAPIで生成型AIサービスを作る

データガバナンス定義ガイド

システム思考を学ぶ

AI支援プログラミング

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.