アラート処理を自動化し、1人で管理できるサーバ台数を5倍に
(2)2つめの機能として、アラート処理を自動化することによって運用を効率化する機能を提供する。大量に受信するアラート情報のうち必要な情報と不要な情報を分け、内容が重複しているアラートを排除する。こうして、重要なアラートについて管理者に通知したり、チケットシステムに起票する。
アラート処理を自動化できる。通知やチケット起票のほか、システム運用管理者へのオペレーションのナビゲートや、オペレーションの自動化もできる
さらに、システム運用管理者にオペレーションを促す機能として、システム障害などの根本原因を特定したり、推奨される対処方法をナビゲートしたりする。あらかじめ対処内容を定義しておくことによって、システム運用管理者に成り代わってオペレーションを自動で実行することもできる。
IIJの実績では、全アラートのうち94%を自動処理しているという。これにより、システム運用管理者が1人で管理できるサーバの台数を従来の5倍に増やすことができた。また、アラート処理や通知を自動化することによって、アラート対応にかかる時間、つまりアラートの発生からオペレーションの完了までの時間を2分の1に短縮できたという。
(3)3つめの機能として、監視データの傾向を把握して将来起こる障害を予測するという予防保全の機能を提供する。従来の監視方法は、監視データの絶対値があらかじめ定めておいたしきい値を超えたかどうかを見ていた。これに対して新サービスでは、過去のトレンドから逸脱した動きを検出する。
監視データの傾向を把握して将来起こる障害を予測する予防保全の機能も提供する