機械学習で大規模仮想化環境はどう変わるか

谷川耕一

2016-02-18 07:00

大規模な仮想化環境のオーバーコミットを安定化したい

　サイオスが機械学習機能を搭載したIT運用分析ソフトウェア「SIOS iQ」の提供を開始したのは2015年7月。現在までに10社弱の企業が利用を始めている。「評価したい企業はたくさんいます」と言うのはサイオステクノロジー SIOS iQ 事業企画部部長の野田勝彦氏だ。SIOS iQというツールは、運用管理を行う現場担当からは関心が高く、すぐにでも試してみたい製品だとか。とはいえ、テスト環境で評価しても効果を実感できない。なので、本番環境で試してみたい。そうなると、実際に評価に至るまでにはそれなりの時間を要するようだ。

サイオステクノロジー SIOS iQ 事業企画部部長野田勝彦氏

　では、どんな企業が関心を示しているのか。まずは、仮想化をアグレッシブに使っている企業が挙げられる。「アグレッシブに使っているところは、物理リソースより多くの仮想化リソースを割り当てるオーバーコミットの設定が当たり前です。300％程度を割り当てることもあり、場合によっては500％も割り当てることがあります」と野田氏。このオーバーコミットの状況は、問題なく動いているときはいいのだが、いざトラブルが発生すると収拾するのが大変だ。場合によっては、徹夜作業になることも。そのような利用の仕方は、大規模な仮想化環境を運用しなければならないクラウドベンダーなどに多い。SIOS iQはそういった企業からの関心が高いと言う。

　一方で消極的に仮想化環境を使っている企業もある。たとえば開発やテストには仮想化環境を使うが、本番環境では仮想化禁止というルールを定めているところもある。「仮想化なのに物理環境と同じような固定的な運用をしている場合があります。そういう企業の多くは、初期のVMwareなどを使って、運用で痛い目を見たところのようです」（野田氏）

　当初はこういった消極的な利用をしている企業はSIOS iQの顧客ではないと思っていた。ところが、仮想化を使うことが当たり前になり、より一層の統合化でさらなる効率化を求める動きもあり、安全にオーバーコミットを行いたいとの要望も出てきた。結果、消極的な利用企業もSIOS iQに関心を示しつつあると野田氏は言う。

　また、可用性、信頼性の確保を重視しているために消極的な利用となっている企業もある。たとえば99.999％の可用性を優位性としているようなクラウドベンダーでは、さらに小数点以下の"9"を増やすためにSIOS iQのような新しいツールを探しているのだ。

しきい値による監視には弱点あり

　多くの運用管理のツールでは、異常が発生した際にアラートを挙げたり、自動制御でトラブルを回避したりする。そのためのアクションのトリガーとして、しきい値を設定するのが普通だ。これまでその値は運用管理者が人手で設定してきた。担当者の経験やトライ・アンド・エラーを繰り返すことで最適な値を決めてきたのだ。ところが大規模な仮想化環境となれば構成は複雑化し人が設定するのはもはや困難。

　たとえばしきい値で監視する場合、値を下げすぎるとアラートが頻発する。一方で上げてしまうと異常を検出できない可能性がある。最適な値を判断するのはかなり大変だ。単純なしきい値による判断を第1世代のシステム監視ツールとすると、第2世代ではそこにポリシーが加わる。たとえば複数の監視対象が同時にしきい値を超えたならばアラートを上げるといったルールが加わる。これで異常検出の精度は向上するが、値を決める難しさは変わらない。

　そこでしきい値の設定を、最近流行の機械学習技術を使って設定しようとする動きがある。これが第3世代の監視ツールだ。過去の運用状況ログデータなどを学習し、最適であろう値を何らかのアルゴリズムで算出する。この方法は、かなり賢い解決策に思える。しかしながら野田氏は「機械学習でしきい値を決めたとしても、それを使う運用管理の問題は変わりません。機械学習で現象は捉えられても、問題の原因までは分からないのです」と言う。

　対してSIOS iQでは、しきい値とはまったく異なるアプローチをとっている。

　「SIOS iQでは、しきい値や運用ポリシーは使いません。機械学習の技術を用い、運用上の問題が発生した際に原因を作っているものと、影響を受けているものを分けるのです。運用の常態を学習し、些細な違いを検知します。それにより障害などの予兆を検知しています」（野田氏）

　現象から原因を予測し、どう対処したら良いかを提示するのがSIOS iQだ。これを使って、例えば仮想化サーバのキャッシュの最適化分析が行える。「日常的な振る舞いから、具体的にどの仮想マシンにキャッシュを増やせば、どのくらい性能が向上するのかといったことが予測できます」と野田氏。しきい値に基づいて、何らかのパラメータがそれを越えたらアラートを発するのではなく、常態を分析しその結果を提示するのだ。