6章専任SREチームなしでSREの原則を適用する方法

Björn Rabenstei、Matthias Rampke(SoundCloud Ltd.)

中堅規模の組織は多くの場合、比較的少数のエンジニアが比較的大量の多様な機能を開発および実行しなければならないという状況に置かれます。

SoundCloudも成長した結果、まさにこうした状況に陥りました。当初のモノリシックなRuby on Railsコードベースに新しい機能を追加していくたびに、新機能の追加がさらに難しくなりました。そこで2012年頃から、マイクロサービスアーキテクチャへの移行を徐々に開始しました。このような移行を成功させるために取り組む必要がある幅広い課題について、SoundCloudのエンジニアは徹底的に議論しました†1。本章では、SoundCloudで数百ものサービスをそれよりはるかに少ないエンジニアが高い信頼性で実行している経験から得られた教訓について詳しく説明します。

[†1] その詳細については SoundCloudの「Backstage Blog」(https://developers.soundcloud.com/blog/)が優れた出発点となります。

6.1 SREが助けに行く!(も失敗した顛末)

2012年にSoundCloudはたまたま、GoogleのSREだったエンジニア2名を採用しました。比較にならないほど小規模とはいえSoundCloudも、巨大なインターネット企業がしばらく前から取り組んでいたのとそれほど違わない、技術上のパターンへと移行する段階を迎えていました。その延長線上で考えると、Googleが実践しているのと同じ方法でシステムを実行することも、迷う余地のない動きでした。私たちは「定石どおりのSRE」を試みました。もっとも当時、定石を教えてくれる実際のSRE本はまだ出ていなかったのですが ...

Get SREの探求 ―様々な企業におけるサイトリライアビリティエンジニアリングの導入と実践 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.