SRE (サイト信頼性エンジニアリング)というシステムの開発・運用手法を長年実践している Google では、信頼性を計測する指標も定義している。信頼性に関する指標の1つが SLI (サービスレベル指標)であり、その目標値が SLO (サービスレベル目標)だ。 SLO よりも SLI が高い状態ならユーザーは満足していると考えられ、 SLO よりも SLI が低い場合はユーザーが満足していないと想定される。実際のサービス監視では、 Google Cloud では「 Cloud Monitoring 」を用いる。 SLO の監視が容易に可能になるだけではなく、それを元にしたアラート設計までシームレスに設定できる。
この資料では、 SLO の重要性と、サービス監視に SLO の監視とそれに基づくアラートの設定をどのように行うのかを中心に、ユーザーのリアルタイム満足度を向上させる方法を解説する。
ホワイトペーパー