はじめに
今回からは、2021年に公開された論文「Take it to the Limit: Peak Prediction-driven Resource Overcommitment in Datacenters」を元にして、サーバークラスターの「オーバーコミット」を最適化するアルゴリズムを解説します。この論文では、サーバー全体のリソース使用量のピーク値を正確に予測する「Peak Oracle」という考え方を用いてアルゴリズムの設計と評価を行っており、アルゴリズムの評価・チューニング手法としても興味深い内容です。
サーバークラスターの「オーバーコミット」
はじめに、サーバークラスターの「オーバーコミット」について簡単に説明します。Googleのデータセンターでは、Borgと呼ばれるコンテナ管理システムを用いたアプリケーションのデプロイが行われており、数万台のサーバーからなるサーバークラスター上で膨大な数のジョブが稼働しています。それぞれのジョブは、複数の「タスク」をコンテナで起動しますが、それぞれのタスクが必要とするリソース(CPU実行時間、および、メモリー使用量)を指定することができます。Borgのスケジューラーは、指定されたリソースが確保できるサーバーを探し出してタスクを割り当てます。この時、指定されたリソースは、このタスク専用に確保された形になります。つまり、このサーバーで利用できる空きリソースは、サーバー上のリソース全体から、起動中のタスクに割り当てられたリソースの合計を引いたものになります。
ここで問題になるのが、次の2つの点です。
この続きは以下をご覧ください
(リンク »)
お問い合わせにつきましては発表元企業までお願いいたします。