デジタルビジネスにおいて、アプリの不具合やサイトのダウンは、収益が刻一刻と失われていくことを意味します。一方、迅速なビジネス展開が要求され、アプリ開発も短期間で進めねばならない現状を考えると、アプリの不具合は、「起こるかもしれない」ではなく「いつ起きるか」の問題です。しかし、こうした事態に備えるためにわざわざ時間とリソースを割いて対策を講じている企業が多くないことも事実であり、いったんインシデントが発生すると、エンジニアリングチームはパニックに陥り、混乱が起こり、インシデント対応が場当たり的になることが珍しくありません。
だからこそ、ベストプラクティスをあらかじめ定めておき、必要なツールに投資すれば、インシデントを迅速に解決することができます。さらに、過去のインシデントから知見を得て、問題への対応力を高めることもできます。
では、効率的、効果的にインシデントを管理するプロセスとは、具体的にどのようなものなのでしょうか。どのようなステップで開発、運用のチームメンバーが連携し、どのようなデータを共有、活用すべきなのでしょうか。今回は、そうしたチームワークを取り上げます。
インシデント管理は重要だが、容易ではない
インシデント対応のためには、メトリック、アプリケーションのトレースログなど、多くのツールやデータセットを使用しなければなりません。加えて、コミュニケーションのためにチャット、メッセージング、ビデオツールなどが必要です。本来、体系化されたインシデント管理プロセスを確立すれば、アラート、共同作業、ドキュメント化を一元化できるはずですが、複雑なプロセスを各メンバーの専門的な知識に依存しているエンジニアリングチームがほとんどであり、対策は容易ではありません。

ユーザー体験を可視化するダッシュボード例
システムが正常な動作をしている間にインシデント管理のためのワークフローを確立し、必要な情報、対応責任者および将来に向けた知見を得るためのインシデント記録手順を明確にしておかなければなりません。つまり、アクセスすべきデータ、メンバー間の役割と責任の分担、さらにコミュニケーションチャネルをあらかじめ明確化するということです。そうすれば、問題の解決を、問題の管理から切り離すことができます。