18章SREのための機械学習入門
Ricardo Amaro(Acquia)
18.1 SREが機械学習を使う理由
明確かつ平易に答えれば、意味があり、ほとんどの場合は(現在では)可能だからです。
SREとは根本的に、ソフトウェアエンジニアに運用機能の設計を依頼したときにできあがるものです†1。
[†1] Ben Treynor Sloss、Googleエンジニアリング部門
本章は筆者がオープンソースコミュニティの年次イベントであるDrupalCon Viennaで行ったプレゼンテーション(https://events.drupal.org/vienna2017/sessions/intelligent-automation-and-machine-learning-site-reliability-engineering)に基づいています。ここではSREから提起されて未解決となっているいくつかの疑問について、機械学習による解決策を検討したいと思います。
- トイルを生み出すだけで誰もやりたがらない反復タスクをどのように自動化すればよいか
- データを検討して、システムで将来起ころうとしていることを予見するにはどうすればよいか
- 「ソフトウェアエンジニアリングを運用機能に適用する取り組み」をどのように強化すればよいか
運用プロセスの自動化は私たちが追求する重要なターゲットです。人工知能(AI)と機械学習の進歩に伴い、自動化できるタスクも増えています。履歴データを保持して新しい状況にプログラムで対応すれば、人間が過去の結果を手作業で分析して将来を予見する代わりに、これから起ころうとしていることをシステムが警告してくれるため、問題を事前に修復できるようになるでしょう。
たった今、AE35ユニットの障害を検出しました。私は72時間以内に100%の確率で機能停止します。 ...
Get SREの探求 ―様々な企業におけるサイトリライアビリティエンジニアリングの導入と実践 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.