13章データ処理パイプライン
執筆:Rita Sodt、Igor Maravić(Spotify)
協力:Gary Luo、Gary O'Connor、Kate Ward
データ処理は複雑な分野であり、より大きなデータセット、大量のデータ変換、高速で信頼性があり、安価な結果に対する欲求などを満たすため、常に進化し続けています。この分野は現在、様々なソースで生成され、収集されるデータセットを特徴とします。これはモバイルの利用統計から統合されたセンサーネットやWebアプリケーションのログにまで及びます。データ処理パイプラインは、このような限度がなく順序付けされていないグローバルなスケールのデータセットを、構造化されてインデックス付けされたストレージへと変換することによって、重要なビジネス上の判断に情報をもたらしたり、新しいプロダクトの機能を可能にします。システムとユーザーの振る舞いについての知見の提供に加えて、データ処理はビジネスに欠かせません。パイプライン内の遅延したデータや誤ったデータは、ユーザーに見える問題として明らかになることがあります。この問題の修正には、コストや労力、時間がかかります。
本章ではまず、プロダクトの例を使って一般的なタイプのビッグデータの処理パイプラインアプリケーションをいくつか検証します。そしてパイプラインに対する要求の特定方法とデザインパターンを見ていき、開発サイクル全体にわたるデータ処理パイプラインの管理のベストプラクティスを並べていきます。パイプラインを最適化するために行えるトレードオフと、パイプラインの健全性の重要なシグナルの計測テクニックを取り上げます。デプロイ後にサービスが健全で信頼性を保つようにするために、SREは(そして開発者も)これらのタスクのすべてを遂行できなければなりません。SREはこの作業に早期の段階から関わるべきです。GoogleのSREチームは定期的にデータ処理パイプラインを開発するチームにコンサルティングを行い、パイプラインを容易にリリース、修正、そして顧客に関わる問題を起こさず動作させられるようにします。 ...
Get サイトリライアビリティワークブック ―SREの実践方法 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.