オブザーバビリティーが変えるCX

インシデント管理をチームワークで乗り切るために

国本明善 (Datadog Japan)

2021-08-04 06:00

 デジタルビジネスにおいて、アプリの不具合やサイトのダウンは、収益が刻一刻と失われていくことを意味します。一方、迅速なビジネス展開が要求され、アプリ開発も短期間で進めねばならない現状を考えると、アプリの不具合は、「起こるかもしれない」ではなく「いつ起きるか」の問題です。しかし、こうした事態に備えるためにわざわざ時間とリソースを割いて対策を講じている企業が多くないことも事実であり、いったんインシデントが発生すると、エンジニアリングチームはパニックに陥り、混乱が起こり、インシデント対応が場当たり的になることが珍しくありません。

 だからこそ、ベストプラクティスをあらかじめ定めておき、必要なツールに投資すれば、インシデントを迅速に解決することができます。さらに、過去のインシデントから知見を得て、問題への対応力を高めることもできます。

 では、効率的、効果的にインシデントを管理するプロセスとは、具体的にどのようなものなのでしょうか。どのようなステップで開発、運用のチームメンバーが連携し、どのようなデータを共有、活用すべきなのでしょうか。今回は、そうしたチームワークを取り上げます。

インシデント管理は重要だが、容易ではない

 インシデント対応のためには、メトリック、アプリケーションのトレースログなど、多くのツールやデータセットを使用しなければなりません。加えて、コミュニケーションのためにチャット、メッセージング、ビデオツールなどが必要です。本来、体系化されたインシデント管理プロセスを確立すれば、アラート、共同作業、ドキュメント化を一元化できるはずですが、複雑なプロセスを各メンバーの専門的な知識に依存しているエンジニアリングチームがほとんどであり、対策は容易ではありません。

ユーザー体験を可視化するダッシュボード例
ユーザー体験を可視化するダッシュボード例

 システムが正常な動作をしている間にインシデント管理のためのワークフローを確立し、必要な情報、対応責任者および将来に向けた知見を得るためのインシデント記録手順を明確にしておかなければなりません。つまり、アクセスすべきデータ、メンバー間の役割と責任の分担、さらにコミュニケーションチャネルをあらかじめ明確化するということです。そうすれば、問題の解決を、問題の管理から切り離すことができます。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    「デジタル・フォレンジック」から始まるセキュリティ災禍論--活用したいIT業界の防災マニュアル

  2. 運用管理

    「無線LANがつながらない」という問い合わせにAIで対応、トラブル解決の切り札とは

  3. 運用管理

    Oracle DatabaseのAzure移行時におけるポイント、移行前に確認しておきたい障害対策

  4. 運用管理

    Google Chrome ブラウザ がセキュリティを強化、ゼロトラスト移行で高まるブラウザの重要性

  5. ビジネスアプリケーション

    技術進化でさらに発展するデータサイエンス/アナリティクス、最新の6大トレンドを解説

ZDNET Japan クイックポール

注目している大規模言語モデル(LLM)を教えてください

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]