いまや、ほぼ全てのセキュリティベンダーが、機械学習を活用していることでしょう。
われわれを例に挙げると、ファイルをスキャンする静的解析では、「教師ありモデル」の機械学習を採用しています。教師ありモデルとは、単純にいえば、質問を投げて答え合わせをし、学習させるモデルです。
予めサンプルファイルとその正しい分類方法をセットで用意し、分類した結果が誤っていれば、間違いの原因を考え、自動的にプログラムを修正していきます。
われわれの場合、この教師ありモデルの機械学習に、動的解析やセキュリティリサーチャーによる解析結果、さらには膨大なユーザーから提供された誤検知の報告を判定に加えます。
こうした、追加の解析結果を教師として、静的解析プログラムが判定を間違えた場合は、自動的に学習しプログラムを改善していきます。

解析対象の実行可能形式ファイルは、正規のものから悪意あるものまで、次々に現れますから、継続的な学習によって解析プログラムを進化させなければなりません。
機械学習は、学習を繰り返し、検出のためのプログラムを改善し続けることにより、高速で正確な判定を継続して提供できるようになります。
機械学習によるマルウェア解析の評価ポイント
冒頭でAIに関する問い合わせが増えていると述べましたが、マルウェア検出でAIを使っていると聞くと、「検出率」に関する質問も寄せられます。
一方、機械学習を使っていると聞くと「学習にどれぐらいのデータ量を使っているのか」「精度が上がるまでの学習期間はどれぐらいか」という質問が多くなります。用語による顧客の印象や疑問点の変化をみると、言葉選びは重要であることを感じます。
どんなに優秀な頭脳を持った人がいても、学習できる教材がなければ、知識の広がりは限定的になります。つまり、そのセキュリティシステムが将来にわたって守り続けてくれるかどうかは、学習に本質があるのです。
どのように学習を継続するのか。学習のための情報ソースは何か。どのように入手するのか。これこそが、機械学習を使った解析エンジンを評価する上での重要なポイントです。