book

データエンジニアリングの設計パターン

by Bartosz Konieczny

April 2025

Beginner to intermediate

374 pages

5h 49m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

本書で使用されている慣例本書の構成本書の使い方本書を読み進める前に知っておくべきことは何か？用語集とコード例オライリー・オンライン・ラーニング問い合わせ先謝辞
デザインパターンとは何か？さらにデザインパターン？一般的なデータエンジニアリングパターン本書で使用したケーススタディ概要
フルロードパターンフルローダーインクリメント負荷パターンインクリメントローダーパターンデータキャプチャを変更するレプリケーションパターンパススルー・レプリケーターパターントランスフォーメーション・リプリケーターデータ圧縮パターンコンパクターデータの準備パターンレディネス・マーカーイベント・ドリブンパターン：外部トリガー概要
処理不能な記録パターンデッドレター重複記録パターン窓付きデュプリケーター後期データパターン後期データ検出器パターンスタティック・レイト・データ・インテグレーターパターンダイナミック・レイト・データ・インテグレーターフィルタリングパターンフィルターインターセプターフォールト・トレランスパターンチェックポインター概要
上書きパターン高速メタデータクリーナーパターンデータの上書き更新情報パターン合併パターンステートフル・マージャーデータベースパターンキー付きべき乗パターントランザクション・ライター不変性データセットパターンプロキシ概要
データの充実パターンスタティック・ジョイナーパターンダイナミック・ジョイナーデータデコレーションパターンラッパーパターンメタデータ・デコレーターデータ集約パターン分散アグリゲーターパターンローカル・アグリゲーターセッション化パターンインクリメント・セッショナイザーパターン：ステートフルセッショナイザーデータの注文パターンビンパックオーダーパターンFIFOオーダラー概要
シーケンスパターンローカル・シーケンサーパターンアイソレーテッド・シーケンサーファンインパターン：整列ファンインパターン：アンアライン・ファンインファンアウトパターン：パラレルスプリットパターンエクスクルーシブ・チョイスオーケストレーションパターンシングルランナーパターンコンカレント・ランナー概要
データ削除パターンバーチカル・パーティショナーパターンインプレイス・オーバーライターアクセス・コントロールパターン：テーブルのきめ細かいアクセッサーパターン：リソースのきめ細かいアクセッサーデータ保護パターン暗号機パターンアノニマイザーパターン疑似匿名化コネクティビティパターンシークレット・ポインターパターンシークレットレス・コネクター概要
パーティショニングパターン水平パーティショナーパターンバーチカル・パーティショナー記録組織パターンバケットパターンソーター読み取り性能の最適化パターンメタデータ・エンハンサーパターンデータセット・マテリアライザーパターンマニフェストデータ表現パターンノーマライザーパターンデノーマライザー概要
品質執行パターン監査-執筆-監査-出版パターンコンストレインツ・エンフォーサースキーマの一貫性パターンスキーマ互換性エンフォーサーパターンスキーマ・マイグレーター品質観察パターンオフライン・オブザーバーパターンオンラインオブザーバー概要

データ検出器パターンフロー中断検出器パターンスキュー検出器時間検出器パターンラグ検出器パターンSLAミス検出器データの系譜パターンデータセットトラッカーパターンファイングレイントラッカー概要
データ・インジェスト・デザイン・パターンエラー管理のデザインパターンべき等デザインパターンデータバリューのデザインパターンデータフローデザインパターンデータセキュリティのデザインパターンデータストレージのデザインパターンデータ品質デザインパターンデータ可観測性デザインパターン

Content preview from データエンジニアリングの設計パターン

第2章. データ・インジェスト・デザイン・パターン

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

データエンジニアリングシステムがデータを生成することはほとんどない。多くの場合、最初の段階は様々なプロデューサからのデータ取得である。これらのプロデューサと協働することは容易ではない。プロデューサは、チーム内の異なるパイプラインであったり、社内の異なるチームであったり、あるいは全く異なる組織であったりする。それぞれのプロデューサは、技術環境やビジネス環境から継承された専用の制約を持っているため、彼らとの対話はあなたにとって挑戦的なものになるかもしれない。

しかし、選択の余地はない。適応しなければならない。そうでなければ、何のデータも得られず、その結果、データ分析やデータサイエンスのワークロードを満たすことができない。あるいはさらに悪いことに、データを入手し、それを下流のコンシューマと共有し、数日後に苦情が来るかもしれない。不完全なデータセット、非効率的なデータ整理、あるいは完全に壊れたデータなど、社内の修復プロセスや埋め戻しが必要な場合がある。

もうお分かりのように、データをシステムに取り込むことは、あなたの生活やユーザの生活をより良いものにするための重要な作業である。そのため、本書はデータ取り込みのデザインパターンから始めなければならない。

本章で紹介するパターンは、外部プロバイダーや他のパイプラインからデータを統合する際に直面する可能性のあるシナリオや課題に対処するものである。まず、2つの一般的なデータロードのシナリオについて説明する。フルロードとインクリメントロードで、それぞれデータセットの全部または一部を取得する。次に、データレプリケーションと呼ばれる特殊化されたデータ取り込みについて説明する。さらに、データ・プライバシーの問題に対処するのに役立つかもしれない、変換なしと変換ありのデータコピーの2つのパターンを紹介する。

データのインジェストには、移動するデータそのものとはあまり関係のないトピックも含まれるため、データインジェストの技術的な部分についても学ぶことになる。まず、いつインジェスト・プロセスを開始すべきかを知る必要があるが、ここではデータ準備のセクションが役に立つだろう。次に、ユーザ体験を向上させ、データエンジニアリング最大の悪夢の1つである小ファイル問題に対処する方法も知っておく必要がある。そこで、データ圧縮のセクションが役に立つ。最後のセクションでは、データの取り込みは必ずしも予測可能なプロセスではないことも学ぶ。願わくば、この章の最後に取り上げたExternal Triggerパターンが、この不確実性に対処してくれることを期待したい。

すべてのコンテキストがセットアップされたので、フルロード・シナリオとインクリメンタル・ロード・シナリオの最初のデータ取り込みパターンを発見してもらおう！

フルロード

フルロード・デザイン・パターンは、毎回完全なデータセットで動作するデータ取り込みシナリオを指す。データベースのブートストラップ（Bootstrap）や参照データセット生成（Reference datasetgeneration）、多くの状況で有用である。

パターンフルローダー

フル・ローダーの実装は、本書で紹介するパターンの中でも最もわかりやすいもののひとつである。しかし、その単純な2ステップの構造にもかかわらず、いくつかの落とし穴が ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341640931Supplemental Content

データエンジニアリングの設計パターン

by Bartosz Konieczny

第2章. データ・インジェスト・デザイン・パターン

フルロード

パターンフルローダー

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

FastAPIで生成型AIサービスを作る

データガバナンス定義ガイド

システム思考を学ぶ

AI支援プログラミング

Publisher Resources

第2章. データ・インジェスト・デザイン・パターン

フルロード

パターンフルローダー

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

FastAPIで生成型AIサービスを作る

データガバナンス定義ガイド

システム思考を学ぶ

AI支援プログラミング

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.