8月下旬に起きたAmazon Web Services(AWS)のシステム障害は、ユーザー企業が運営するさまざまなサービスが停止するなど、その影響力の大きさを改めて気付かせることになった。6月にはGoogle Cloud Platform(GCP)で広範囲に及ぶ問題が発生。YouTube、Snapchat、Gmail、Discordをはじめとする人気アプリやサービスが米国東部全域で一時利用できなくなった。
ビジネスを支える仕組みの多くが既にIT化しているが、今後「あらゆるモノがインターネットに接続する」といった展開を考えると、システム障害のインパクトは今後ますます大きくなると考えられる。
だが、トラブルの発生を完全に排除するという世界はまだまだ来ていないようだ。例えば、航空業界は24時間稼働を前提にし、安全性を何よりも重視しなくてはならないにも関わらず、しばしばシステム障害に悩まされている。
中立的な組織である米国の会計検査院(GAO)が発表したレポートによれば、2015年から2017年にかけて、航空会社に悪影響を及ぼすシステムの障害が少なくとも34件発生している。
レポートで特定された航空会社のITシステム障害の原因は、ハードウェアの故障、ソフトウェアの障害や処理速度の低下、停電や通信の途絶、ネットワーク接続の問題など多岐にわたっている。
原因として、ITシステムに対する長期間にわたる投資不足、古いレガシーシステム、環境の複雑化などITの専門家にはなじみ深い項目が挙がっており、チェックすべき事柄が確かに存在している点に注目したい。
システム障害をゼロにする、影響範囲を最小限にするといった目標を、今後企業のシステム担当者はさらに重視しなくてはならないものになりそうだ。
システム障害に関して、実例や対策を立てる上での考え方が分かる情報を集めた。