何が起こったかを正確に記録するための時間を取ること。あなたが何をしたか(該当する場合)、どんなコマンドを実行したか、何が起こったかを、すべてのエラーメッセージを含めて記録しておかなくてはならない。この喧騒が過ぎ去れば、あなたの記憶は「俺たちに明日はない」で警察とやりあった後のボニーとクライドの車のように、ボロボロになっているだろう。後述するように、物事をなんとかするだけでは、十分ではない。紙に自分の行動を書き留めてもいいし、コンピュータのテキストファイルに入力してもいい。同僚に向かってしゃべって、口述筆記してもらってもいいだろう。
対応手順を進める最中も、分かったことや、状況を改善するために行ったことを記録しておく。サービスは再起動したか?マシンを再起動したか?レジストリキーを変更したか?何かをどこかにつないだか?すべてを書き留めておくこと。この時、ミスをしてはならない。この手順が、あなたと会社の両方を救うかもしれないのだ。うまくいかなかったことを確認しておけば、後で問題が起きたときに、一から試す必要はなくなる。
6.すべての事実を明らかにし、ごまかさない
最初の問題を引き起こしたのがあなたであろうが、そうでなかろうが、音楽が止まった時に座る席がなくなっているのを避けたい気持ちが起きるかもしれない。IT業界で働いていれば、障害の後にみんなが自分に責任を押し付けてくることを心配する気持ちもわかる。緊急事態が終わった時、ユーザーが最初に聞いてくるのは、たいていの場合「一体何をやったんだ?」という質問だ。「問題が起きるのを予想できなかった」責任があるとみなされてしまう場合もあるかもしれない。
それでも、問題に対処しようとしながら、何かを隠そうとしてはならない。それは倫理的に正しくないだけでなく、解決を遅らせ、混乱させる。問題を悪化させる場合さえある。それに、第三者(あるいは上司)が行間を読んで、実際に何が起こったかを理解する可能性は非常に高い。システムはイベントを記録し、ログファイルを保存し、場合によっては管理者の行動も監査している。結局、OMGをダウンさせた原因はどこかにあり、それを隠そうとすれば誰のためにもならない。履歴書で学歴を偽って、本来就くべきではない職位に就いたのはいいが、本人も忘れたころに真実が発覚して恥をかいた揚句に首になったという話はよく聞く。自分がそういう人にならないようにすべきだ。あなたにも、同じことが起こるかもしれない。
7.すべての手を一度に打たない
最初の手段がうまくいかないと、もう一度同じことを試してしまう人が多い。押しボタン式の横断歩道でボタンを押しまくっている人を見かけるのは、このためだ。紙が引っかかったプリンタを直すと、同じ文書が何度も出力されるのも同じだ。ファイルメニューの印刷を16回クリックしてうまくいかったのに、17回目はうまくいくかもしれないと思うらしい。
システム障害が発生しているときは、できるだけ早く正常な状態に戻したいと思うはずだ。しかし、試せることが4つある場合は、一度にすべてを試すべきではない。短期的にはそれで安心が得られても、もしそれがうまくいってしまった場合、どうして問題が解決したのかを知ることができなくなってしまう。確かに、日曜の午後にゆっくりケーススタディをやるようなわけにはいかないが、出たとこ勝負で作業を急ぐのはよくない。本当に問題が解決できたと確信するためには、決定的な証拠を見つける必要がある。