正常に稼働していたネットワークを停止させてしまうような失敗をしでかすのは、エンドユーザーに限ったことではない。ITプロフェッショナルも、災害復旧計画をきちんと策定できていなかったり、修理作業を先延ばしにしたり、ログやドキュメントの必要性を無視するなどの失敗をしでかすのである。
ITプロフェッショナルが最もよく行う気晴らしの1つに、ユーザーのしでかす間抜けな失敗に関する愚痴というものがある。われわれは皆、TechRepublicに掲載されているような、(ユーザーのしでかした間抜けな失敗を集めた記事)(英文)を読んで大笑いする。しかし、正直な人間であれば、失敗をしでかすのはコンピュータの初心者だけに限らないということを認めるはずである。ほとんどのネットワーク管理者は自らが「最もばつの悪い思いをした瞬間」について語ることができるはずだ(しかし、おそらく語ろうとはしないだろう)。こういった失敗として、ファイアウォールの設定を間違えたことで、上司がインターネットにアクセスできなくなったとか、バックアップこそ毎日行っていたものの対象ファイルを間違えていたといったことを挙げることができる。失敗に気付いた時には血の気が失せるはずだ。
本記事では、ITプロフェッショナルが最もよくしでかす、ネットワークを停止させてしまうこともあるような間抜けな失敗を採り上げるとともに、どうすればそういった失敗を避けることができるかについても説明している。
#1:包括的なバックアップ計画や災害復旧計画を策定していない
これはバックアップを行うのが難しいということではない。問題は、ほとんどのネットワーク管理者が忙しさゆえにバックアップをなおざりにしてしまうという点と、バックアップが必要となるような状況が発生するまでバックアップ作業が時間の無駄で骨折り損のように思えるという点にあるのだ。
あなたももちろん、会社の重要なデータをバックアップしていることだろう。ここで私は、ほとんどの管理者がバックアップ戦略を持っていないと主張しているわけではない。しかし、こういったバックアップ戦略の多くは、一昔前から更新されないままとなっているのである。つまり、重要なファイルを特定の間隔でテープにバックアップするよう設定した後は放っておかれているということである。(テープ装置が故障したり、さらに悪いことにバックアップテープを実際に使用しなければならないような致命的なデータ喪失が発生するなどして)実際の必要性に迫られない限り、バックアップ戦略を評価したり、更新したり、あるいは定期的にテープの内容を調べてデータが正しくバックアップされているかどうかを確認することなど行われないというわけである。
本格的な災害復旧計画に関してはもっとなおざりにされている。事業継続計画(BCP)は文書化されており、引き出しのどこかに眠っているかもしれないが、本当に最新の内容になっているだろうか?現時点における機器や要員がすべて考慮されているだろうか?BCPにおいて何らかの役割を割り当てられている人は全員、その存在を知らされているだろうか(例えば、BCPが策定された以降に入社した担当者はいないだろうか)?計画には、問題をいかに迅速に検出するかや、関係する人々に対してどのように連絡をとるのか、影響を受けたシステムをいかに切り離すのか、障害箇所を修復し、生産性を回復するためにどういったことを行う必要があるのかといった、重要な要素がすべて盛り込まれているだろうか?
#2:危険信号を無視する
無停電電源装置(UPS)が何週間にもわたって故障の兆候を見せている。あるいは、メールサーバの調子が悪く、1日に何度も再起動する必要がある。インターネットの回線速度が何の理由もなく数分間遅くなった後、また元に戻るという苦情がユーザーから寄せられている。しかし、動いていることは動いているため、問題の調査を先延ばしにしていたところ、ある日出社するとネットワークがダウンしていた。
ネットワークの異常に早めに気付き、重大な問題となる前に対処しておくことは、われわれ人間の身体の健康管理と同様に重要なことなのである。