混沌工程实战:手把手教你实现系统稳定性

Book description

大多数公司致力于规避故障,但对分布式系统而言,更好的方法是拥抱故障并从中学习。混沌工程旨在提前发现系统的缺陷,从根本上提高系统的稳定性,并实现反脆弱性。

本书是写给软件工程师的混沌工程实践指南,作者从基本概念出发,逐渐展开混沌工程的整体流程,并提供了配套代码示例和真实案例说明。以下是本书的主要内容。

  • 学会像混沌工程师一样思考。
  • 构建假说待办集,确定系统可能出现的问题。
  • 根据假说规划和开展混沌工程游戏日。
  • 使用Chaos Toolkit和Python编写并运行自动化混沌工程实验。
  • 将混沌工程实验转变为测试,确认已修复缺陷。
  • 实现持续混沌,证实缺陷不会再次出现。

Table of contents

  1. 封面
  2. 扉页
  3. 版权
  4. 版权声明
  5. O’Reilly Media, Inc.介绍
  6. 本书赞誉
  7. 目录
  8. 前言
    1. 读者对象
    2. 内容结构
    3. 其他说明
    4. 关于示例
    5. 排版约定
    6. 使用示例代码
    7. O’Reilly在线学习平台
    8. 联系我们
    9. 致谢
    10. 电子书
  9. 第一部分 混沌工程入门
    1. 第1章 混沌工程精粹
      1. 1.1 混沌工程的定义
        1. 1.1.1 混沌工程涉及整个社会技术系统
        2. 1.1.2 暗债何处寻
      2. 1.2 混沌工程的流程
      3. 1.3 混沌工程的实践
      4. 1.4 混沌工程和可观察性
      5. 1.5 有所谓的“混沌工程师”吗
      6. 1.6 小结
    2. 第2章 构建假说待办集
      1. 2.1 先做实验?
      2. 2.2 收集假说
        1. 2.2.1 事故分析
        2. 2.2.2 描述系统
        3. 2.2.3 找到“可能出错的地方”
      3. 2.3 引入可能性和影响
        1. 2.3.1 绘制可能性与影响关系图
        2. 2.3.2 添加关注点
      4. 2.4 构建假说待办集
      5. 2.5 小结
    3. 第3章 规划并手动开展游戏日
      1. 3.1 何谓游戏日
      2. 3.2 规划游戏日
        1. 3.2.1 选择一个假说
        2. 3.2.2 选择游戏日风格
        3. 3.2.3 决定谁做参与者,谁做观察者
        4. 3.2.4 确定开展游戏日的位置
        5. 3.2.5 确定游戏日开始及持续的时间
        6. 3.2.6 描述游戏日实验
        7. 3.2.7 获得批准
      3. 3.3 开展游戏日
      4. 3.4 小结
  10. 第二部分 混沌工程自动化
    1. 第4章 为自动化混沌工程准备工具
      1. 4.1 安装Python 3
      2. 4.2 安装Chaos Toolkit的命令行界面
      3. 4.3 小结
    2. 第5章 编写并运行自动化混沌工程实验
      1. 5.1 建立示例目标系统
      2. 5.2 探索并发现缺陷的迹象 (1/2)
      3. 5.2 探索并发现缺陷的迹象 (2/2)
        1. 5.2.1 开展实验
        2. 5.2.2 chaos run的内在机制
        3. 5.2.3 稳态偏差可能表示“有改进空间”
      4. 5.3 改进系统
      5. 5.4 验证改进
      6. 5.5 小结
    3. 第6章 混沌工程全流程
      1. 6.1 目标系统
        1. 6.1.1 平台:三节点Kubernetes集群
        2. 6.1.2 应用程序:单一服务,复制三次
        3. 6.1.3 人员:集群管理团队和应用程序团队
      2. 6.2 寻找缺陷
        1. 6.2.1 命名实验
        2. 6.2.2 定义稳态假说
        3. 6.2.3 引入实验操作方法中的混乱条件
        4. 6.2.4 在操作方法中使用Kubernetes驱动程序
      3. 6.3 成为会还原的好公民
      4. 6.4 整合所有步骤并运行实验
      5. 6.5 小结
    4. 第7章 合作的混沌工程
      1. 7.1 共享实验定义
        1. 7.1.1 将配置值移入配置块
        2. 7.1.2 将配置属性指定为环境变量
        3. 7.1.3 将密钥移到外部
        4. 7.1.4 划定密钥范围
      2. 7.2 指定作用模型
      3. 7.3 创建并共享具有可读性的混沌工程实验报告
        1. 7.3.1 生成实验的单次运行报告
        2. 7.3.2 生成并共享实验的多次运行报告
      4. 7.4 小结
    5. 第8章 创建混沌工程实验驱动程序
      1. 8.1 无须额外代码即创建自定义驱动程序
        1. 8.1.1 用HTTP调用实现probe和action
        2. 8.1.2 用进程调用实现probe和action
      2. 8.2 用Python创建自定义混沌工程驱动程序 (1/2)
      3. 8.2 用Python创建自定义混沌工程驱动程序 (2/2)
        1. 8.2.1 为Chaos Toolkit扩展项目新建Python模块
        2. 8.2.2 添加probe
      4. 8.3 小结
  11. 第三部分 混沌工程操作
    1. 第9章 混沌与操作
      1. 9.1 实验中的操控
      2. 9.2 启用control
        1. 9.2.1 在实验代码中启用control
        2. 9.2.2 全局启用control
      3. 9.3 小结
    2. 第10章 实现混沌工程的可观察性
      1. 10.1 为混沌工程实验加入日志
      2. 10.2 追踪混沌工程实验
        1. 10.2.1 引入OpenTracing
        2. 10.2.2 应用OpenTracing control
      3. 10.3 小结
    3. 第11章 人为干预自动化混沌工程实验
      1. 11.1 为control新建Chaos Toolkit扩展模块
      2. 11.2 加入非常简单的人机交互控制
      3. 11.3 跳过或执行实验中的activity
      4. 11.4 小结
    4. 第12章 持续混沌
      1. 12.1 何谓持续混沌
      2. 12.2 使用cron安排持续混沌
        1. 12.2.1 创建脚本执行混沌测试
        2. 12.2.2 将混沌测试脚本添加到cron
      3. 12.3 用Jenkins调度持续混沌
        1. 12.3.1 下载Jenkins
        2. 12.3.2 将混沌测试添加到Jenkins构建中
        3. 12.3.3 使用构建触发器调度Jenkins中的混沌测试
      4. 12.4 小结
    5. 附录A 混沌工程工具包Chaos Toolkit (1/2)
    6. 附录A 混沌工程工具包Chaos Toolkit (2/2)
    7. 附录B Chaos Toolkit社区游乐场
    8. 关于作者
    9. 关于封面

Product information

  • Title: 混沌工程实战:手把手教你实现系统稳定性
  • Author(s): Russ Miles
  • Release date: August 2020
  • Publisher(s): Posts & Telecom Press
  • ISBN: 9787115542601