32章運用と社会運動が交わるところ
Emily Gorcenski、Liz Fong-Jones
計測、リスクの軽減、危機対応、長期フォローアップの管理は、SREの一部として、また、より広い意味でソフトウェア運用の規律の一部として十分に受け入れられています。私たちは現場で学ぶことに基づいて、問題を早期に食い止めるために設計レビューを行い、主要なサービス指標を計測し、インシデント管理構造を用いてサービス障害時の複雑さを管理し、ポストモーテムを作成し、将来の作業をガイドします。計測とデータを重視するからこそ、ユーザーをより適切に擁護できるのです。
SREという協調に基づく学際的なアプローチは多くの異なるステークホルダーの調整が伴うものであり、個人が協力することで複雑さに圧倒されたり燃え尽きたりするのを避ける必要があります。ヒューマンファクターの管理は概して、SREが学ぶ最も重要なスキルです。
しかし、エンジニアとしての私たちの仕事は、純粋にサービスレベル目標(SLO)を遵守することでは終わりません。人に危害を加える、不正を悪化させる、疎外されたグループを排除するといった仕事を高い信頼性で行うサービスは、構築および維持する価値があるサービスではありません。技術には良かれ悪しかれ世界を変える力があるため、あらゆる種類のエンジニアは、自分たちの仕事が「公益に資するもの」であり、「生活の質を低下させたり、プライバシーを低下させたり、環境に害を与えたりするものではない」ことを保証する責任を共有しています†1。
[†1] ACM倫理規定(Code of Ethics)(http://ethics.acm.org/code-of-ethics/software-engineering-code/ ...
Get SREの探求 ―様々な企業におけるサイトリライアビリティエンジニアリングの導入と実践 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.