はじめに
前回に続いて、2023年に公開された論文「CAPA: An Architecture For Operating Cluster Networks With High Availability」に基づいて、データセンターネットワークの構成変更を安全に実行するためにGoogleのエンジニアが開発した、CAPA(containment and prevention architecture)と呼ばれるアーキテクチャーを紹介していきます。今回は、CAPAによる処理の流れを具体例で説明します。
ネットワーク管理のベストプラクティス
前回の記事で説明したように、CAPAの目的は、個々のネットワーク管理者やソフトウェアエンジニアに依存することなく、ベストプラクティスに従った安全な構成変更を実現することです。冒頭の論文では、CAPAの設計で考慮したベストプラクティスの主要項目として、次の5つをあげています。
・障害ドメインの分離:障害の影響が相互に伝搬しない、独立した障害ドメインを構成することにより、障害の影響範囲を最小限に留めます。ただし、ネットワークシステムは、相互接続されていることが本質的に必要であり、完全に独立した障害ドメインを実現することは容易ではありません。現実には、コスト、および、システムの複雑性とのトレードオフを考慮する必要があります。
段階的で管理されたロールアウト:構成変更に伴う想定外の障害を防止するために、構成変更は段階的に、各ステップでシステムが健全な状態にあることを確認しながら実施します。ただし、段階を分けすぎると構成変更にかかる時間が長くなるため、現実には、安全性とベロシティのバランスを考慮する必要があります。
この続きは以下をご覧ください
(リンク »)
お問い合わせにつきましては発表元企業までお願いいたします。

