自らが記述したコードや、開発したシステムに障害が発生した場合のことを考えたい人などいないだろう。しかし、障害は発生する。しかも時を選ばずにだ。ここで鍵となるのは、大きな問題と小さな問題を切り分けることだ。
PagerDutyはこういった状況での支援を手がける企業だ。同社は、障害が発生した際の効率的なインシデント管理を目標とした、DevOpsの監視スタックと連動した企業向けのインシデント解決サービスを提供している。このサービスを利用することで、企業はアプリケーションやインフラの状態を可視化でき、顧客を念頭に置いた平均修復時間(MTTR)の短縮を目的とした作業手配を容易に実現できるようになる。

PagerDutyの最高経営責任者(CEO)Jennifer Tejada氏:開発者は「エクスペリエンスのアーキテクトでありデザイナーでもある」
提供:Roger Jennings
PagerDutyの最高経営責任者(CEO)Jennifer Tejada氏によると、インシデント管理はこれまで、あらゆるものがおかしくなり、停止してしまった瞬間に考えるものだと捉えられていたという。
同氏は「今ではそう捉えるべきではない。いつ障害が発生してもおかしくないものがある一方、より強固かつ堅牢なサービスの構築に役立てられる兆候がある」と述べた。
同社はカナダのウォータールー大学の卒業生3人によって7年前に創業された。オンタリオ州トロントに近いウォータールーに立地する同大学はCo-operative Education & Career Action(CECA)と呼ばれる、インターンシップ制度に似た先進的な実務教育プログラムを提供しており、PagerDutyの共同創業者3人とも、CECAを通じてAmazonで働いた経験を有している。3人はAmazonで働くうちに、PagerDuty創業のきっかけとなるアイデアを抱くようになったという。
Tejada氏によると「Amazonに初めて出社すると、そこでエンジニアや開発者として働くに先立って、ある儀式が執り行われる。その儀式のなかで、『何かあったら呼び出すから』という言葉とともにポケットベルが手渡される」という。つまり夜間にシステム障害が発生した場合、まず新人が最初に呼び出されるというわけだ。そして同氏は、その役目を通じて多くのことを経験した。
Tejada氏はこういった経験のなか、障害発生時に誰に連絡すべきかすら判断しにくい場合もしばしばあるという点に気付いたと述べた。そしてこの部分こそ、リアルタイムでの対応が要求されるとともに、ネットワークの可用性が欠かせない分野だったのだ。