はじめに
今回からは、2023年に公開された論文「CAPA: An Architecture For Operating Cluster Networks With High Availability」に基づいて、データセンターネットワークの構成変更を安全に実行するためにGoogleのエンジニアが開発した、CAPA(containment and prevention architecture)と呼ばれるアーキテクチャーを紹介していきます。今回は、CAPAが必要とされる背景と、CAPAのアーキテクチャー概要を説明します。
データセンターネットワークの構成変更に伴う課題
クラウドプロバイダーやネットワークプロバイダーが管理する大規模なデータセンターネットワークでは、さまざまなレイヤーでの冗長化が行われており、理論上は無停止での稼働を実現するアーキテクチャーが採用されています。しかしながら、現実にはエンドユーザーに影響を与えるネットワーク障害が発生することがあります。Googleのネットワーク管理チームの経験では、その多く(2018年のデータでデータセンターネットワークの障害の58%以上)が、構成変更の管理作業に起因します。構成変更に伴う障害を防止するためのさまざまなベストプラクティスが知られていますが、冒頭の論文によると、大規模なデータセンターネットワークでは、このようなベストプラクティスを確実に適用する上でのいくつかの課題があります。そのため、構成変更に伴う想定外のネットワーク障害を防止するには、これらの課題を解決する仕組みが必要であり、Googleのデータセンターでは、2018年から、その実現を目指したCAPAと呼ばれるアーキテクチャーを導入しています。
この続きは以下をご覧ください
(リンク »)
お問い合わせにつきましては発表元企業までお願いいたします。

