マイクロソフト、バグレポートを機械学習で分類--セキュリティ脆弱性への対応を迅速化

Liam Tung （ZDNET.com）翻訳校正：編集部

2020-04-23 12:57

　Microsoftは機械学習を利用して、セキュリティに関わるバグレポートを正確に特定しているという。

　同社が目指しているのは、バグレポートのラベルのみを分析することにより、大量のバグの中からセキュリティバグを正しく特定することだ。

　Microsoftによると、同社では4万7000人の開発者が毎月約3万個ものバグを生み出しているが、開発サイクルでの対応が求められるようなセキュリティ上の重要性を持つバグは、そのごく一部に過ぎない。

　同社が開発した機械学習モデルを使えば、セキュリティに関係するバグと関係しないバグを99％の精度で見分けられる。深刻度の高いセキュリティバグも97％の精度で特定できるという。

　これにより、バグの分類や優先順位付けも新たな人員を投入することなく実施できる。機械学習モデルをトレーニングするために、同社は2001年から蓄積してきた1300万ものタスクやバグに関するデータを有している。

　ラベル済みデータからデータを分類し、そのモデルを使って未分類のデータにラベル付けする方法を機械学習モデルに教えるに当たっては、教師あり学習のアプローチが用いられた。

　重要なのは、バグレポートのタイトルから分類できる点だ。このおかげでバグレポートに含まれるパスワードや個人情報といった機密情報の取り扱いに関する問題を回避できるようになった。

　MicrosoftのデータサイエンティストであるMayana Pereira氏と顧客セキュリティトラスト部門のScott Christiansen氏は、発表文書「Identifying Security Bug Reports Based Solely on Report Titles and Noisy Data」で、「レポートのタイトルのみに基づいてセキュリティバグレポートの分類子をトレーニングしている」と説明する。

　「われわれの知る限り、このようなモデルは他にない。過去のモデルはバグレポート全体を用いるか、補完的ツールを使って機能を拡張していた」と両氏は言う。

　「われわれのモデルはレポートのタイトルのみに基づいてバグを分類できるため、特にプライバシー上の懸念からバグレポート全体を利用できないときに威力を発揮する。その典型が、パスワードなどの機密データを含むバグレポートだ。

　Microsoftでは、今も機械学習モデルのトレーニングや再トレーニング、モデルの評価、データサイエンティストが機械学習モデルに投入するトレーニングデータの承認にはセキュリティ専門家が関与している。

　「機械学習を利用することで、セキュリティバグを99％の精度で分類できるだけでなく、深刻なセキュリティバグとそれ以外のバグのラベル付けも97％の精度で実施できる。この精度がセキュリティ上の脆弱性の多くを悪用される前に発見できているという自信につながっている」と、両氏はブログ記事の中で述べている。

　Microsoftはこの手法を数カ月以内にGitHub上で公開する予定だ。

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。