はじめに
前回に続いて、2021年に公開された論文「Take it to the Limit: Peak Prediction-driven Resource Overcommitment in Datacenters」を元にして、サーバークラスターの「オーバーコミット」を最適化するアルゴリズムを解説します。今回は、過去データを使ったシミュレーションによる評価結果、および、実環境に適用した場合の効果を示すデータを紹介します。
アルゴリズム別のパラメーターチューニングと性能測定結果
前回の記事では、「サーバー全体でのリソース使用量のピーク値」を予測するアルゴリズムを用いて、より最適なオーバーコミットを実現する方法を説明しましたが、その際に、予測アルゴリズムの具体例として次の3つを紹介しました。
(1) Borg-default Predictor (borg-default)
(2) Resource Central-like Predictor (RC-like)
(3) N-sigma Predictor
それぞれのアルゴリズムにはチューニング対象のパラメーターが含まれているため、実際の性能を評価するには、これらのパラメーターを決定しておく必要があります。まず、(1)は、「現在稼働中のタスクに割り当てられたリソースの合計×P」をピーク値の予測とするものでしたが、論文内では、具体例としてP=0.9という設定を用いています。図1は、Googleのデータセンターで稼働するタスクについて、実際のリソース使用量(CPU使用時間)を調査した結果ですが、大多数のクラスター(cell)において、横軸(割り当て量に対する実際の使用量の割合)が0.9のところで、縦軸(タスクの割合)が1.0に近くなっています。つまり、実際のリソース使用量が割り当て量の90%を超えることはほとんどなく、P=0.9という設定は十分に妥当であるとわかります。
この続きは以下をご覧ください
(リンク »)
お問い合わせにつきましては発表元企業までお願いいたします。