Microsoftは「Microsoft Azure」の信頼性を、同社が現在保証しているという平均稼働率99.995%からさらに改善するための手段を講じている。同社のAzure担当最高技術責任者(CTO)であるMark Russinovich氏が米国時間7月15日のブログ記事で、いくつかの具体的な取り組みを明らかにした。
提供:Microsoft
Russinovich氏はブログ記事で、Azureが過去1年間に起こった「3つの特徴的で重要なインシデント」の影響を受けたと述べている。それらは、2018年9月に米国中南部リージョンで発生したデータセンター障害、2018年11月に起こった「Azure Active Directory(Azure AD)」多要素認証サービスの障害、そして2019年5月のDNSのメンテナンスに関連する問題だ。
Russinovich氏によると、Microsoftは同氏のCTOオフィス内に「Quality Engineering」チームを新たに編成し、Site Reliability Engineering(SRE)チームと連携して、Azureの信頼性を高めようとしているという。
Russinovich氏は、信頼性を向上させていくためのいくつもの取り組みが進行中だと述べた。その1つとして、Azureの「可用性ゾーン」(Availability Zones)の拡充を挙げている。現在最も大きな10のAzureリージョンで可用性ゾーンを提供しているが、2021年までにさらに10リージョンで提供したい考えだ。可用性ゾーンは顧客をデータセンターなどの障害から守るためのものだ。これらのゾーンはAzureのリージョン内に設定されており、独自の電源設備やネットワーク設備、冷却設備が用意されている。可用性ゾーンが利用可能なリージョン内には少なくとも3つのゾーンが設定される。
Microsoftはさらに、同社の安全導入プラクティスのフレームワークを拡張して、ネットワーキングやDNSなど、ソフトウェア定義型インフラストラクチャーの変更も、その対象に含める。このフレームワークは、Azureに関連したすべてのコードや設定変更が、開発およびテスト、ステージング、プライベートプレビュー、多様なハードウェアでの試験運用、より長いバリデーション期間といった一連の段階を経て、リージョンペアに展開されるようにするためのものだ。
2018年9月にデータセンターの障害が発生した際には、複数のストレージスタンプが物理的にダメージを受け、すぐにシャットダウンする必要があった。同社は、復元にかかる時間よりもデータの保持を重視しているため、より長時間停止させ、すべての顧客データを確実に復元させることを選択したという。しかし顧客の一部から、このような決定を自社でより柔軟に行いたいという要望が寄せられたため、顧客自身がストレージアカウントレベルでフェイルオーバーできるようにしようとしている。
また同社は、「Project Tardigrade」という新しいAzureサービスに取り組んでいる。これはハードウェア障害やメモリーリークを発生前に検出して、仮想マシンを一時的にフリーズできるようにするというものだ。影響を受ける可能性があるワークロードを障害が起こる前に、別のホストに移すことができる。Microsoftはこのサービスの提供時期については、まだ何も明らかにしていない。
Russinovich氏は、「クラウドサービスの最も優れている点の1つは、継続的にリアルタイムで改善できる点だ。すべてのリスクを完全に排除することは不可能だが、当社の顧客、パートナー、広範な業界に対する透明性を確保しながら、サービスの問題の頻度と影響を減らすことに専念している」と述べた。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。