オブザーバビリティー(可観測性)プラットフォームを提供するNew Relicは5月17日、システムの稼働時間と信頼性を維持・向上するため、サイトリライアビリティーエンジニアリング(SRE)のベストプラクティスを運用可能にする「Service Level Management(SLM)」機能の提供開始を発表した。
企業は、サービスレベル指標(SLI)やサービスレベル目標(SLO)をエンジニアチームの管理指標として観測することで、ソフトウェアのリリース頻度を上げながらも、顧客に影響がある問題の発生を抑制できる。また、SLIに付随して算出され、損失可能な信頼性や性能を示す“エラーバジェット”を用いることで、開発者、運用者、ビジネスの責任者の三者間で許容されるリスクを定量化し、攻めの開発や運用、適切なリソースの投資を可能にする。
しかし、システムから提供される大量のデータから「どのシステムデータの指標がサービス遅延やエラーの影響を特定してくれるのか」を判断するのは容易ではない。そこで、New Relicは、複雑な作業をすることなくシステムにおけるサービスレベル管理を可能にするため、同社オブザーバビリティープラットフォーム「New Relic One」向けにSLMを開発したという。
SLMは、ワンクリックでSLIを作成し、SLOの設定に必要なパフォーマンスと信頼性のベースラインを自動的に決定する。履歴データを利用した推奨事項を使用してベンチマークを確立し、SLIとSLOをカスタマイズ・構成する。
図1:自動的にサービス単位でのSLI/SLOを設計し抽出する。同時にエラーバジェットも可視化し、このサービスのサービスレベル目標に対してあとどの程度のエラーが許容できるのかを可視化する。
エラーバジェットをダッシュボードで監視し、アラートする。これらの測定値を顧客向けのサービスレベル契約(SLA)に結び付けることで、コンプライアンスを確保できる。
図2:ビジネスを構成する全てのサービスやアプリケーションのサービスレベル、エラーバジェットの状況を一覧で表示する。
SLMは、Free Tierを含む全てのNew Relic Oneユーザーで追加のコストやライセンス不要で利用できる。