はじめに
前回に続いて、2023年に公開された論文「CAPA: An Architecture For Operating Cluster Networks With High Availability」に基づいて、データセンターネットワークの構成変更を安全に実行するためにGoogleのエンジニアが開発した、CAPA(containment and prevention architecture)と呼ばれるアーキテクチャーを紹介していきます。今回は、CAPAが大規模な障害を防止した具体例を紹介します。
CAPAによるベストプラクティスの適用
前回の記事では、CAPAによる構成変更の例を紹介しましたが、その中では、レギュレーションレイヤーが同時に行われる構成変更の数を制限するなどの処理を行いました。Googleでは、ネットワーク全体の構成をMALT(Multi-Abstraction-Layer Topology representation)と呼ばれる独自の構成言語で記述しており、CAPAでは、この構成情報を元にして許可される操作を定義します。たとえば、「グローバルネットワーク全体で最大N個のクラスターネットワークの同時変更を許可する」「1つのクラスターネットワークでは、4つのSDNコントローラーに大して15分の間隔を空けて順番に変更する」などの定義ができます。特に、4つのSDNコントローラーを順番に処理することで、クラスターネットワークの構成変更に伴う一時的なキャパシティの減少は、最大でも25%に抑えられます。
この続きは以下をご覧ください
(リンク »)
お問い合わせにつきましては発表元企業までお願いいたします。

