人工知能(AI)や機械学習(ML)の専門家らは、大規模データセットに対するデータポイズニング攻撃のリスクについて警告している。こういったデータセットは、ディープラーニング(DL)モデルを訓練するために多くのAIサービスで一般的に用いられているためだ。
提供:Getty/EDUARD MUZHEVSKYI /SCIENCE PHOTO LIBRARY
データポイズニング攻撃とは、DLモデルの生成に用いられる訓練データを攻撃者が改ざんすることによって発生する。これはつまり、追跡しにくい手段でAIの意思決定に影響を与えられるということを意味している。
この攻撃は、MLのアルゴリズムを訓練するために用いられる一次情報にひそかに手を加えることで、極めて強力なものになる可能性がある。というのも、不正確なデータを用いてAIが学習する結果、「誤った」意思決定を下し、重大な結果を引き起こしかねないためだ。
今のところ、現実の世界でウェブスケールのデータセットに対するポイズニング攻撃が発生したという形跡はない。しかし、Googleやスイス連邦工科大学チューリッヒ校(ETH Zurich)、NVIDIA、Robust IntelligenceのAI/ML研究者らは、大規模MLモデルの訓練に用いられるウェブスケールのデータセットに悪意ある情報を「確実に」送り込むというデータポイズニング攻撃の可能性を実証したと論文に記している。
研究者らは、「大規模DLモデルはランダムなノイズに耐性がある一方、訓練セットに悪意あるノイズがほんの少しある(すなわちポイズニング攻撃)だけで、モデルの振る舞いは意図した通り、過ちに基づいたものになる」と警告している。
研究者らは、このテクニックを用いることで、データセットの使用目的を損なうエクスプロイトを考え出し、わずかな労力とコストで、著名なDLデータセットの0.01%を汚染できたと記している。0.01%という値は、データセットのほんの一部にしか見えないが、研究者らは「モデルを汚染するには十分」だと警告している。
この攻撃は「スプリットビューポイズニング」と呼ばれている。攻撃者が特定のデータセットでインデックス付けされているウェブ上のリソースに対する統制権を手中に収められる場合、その集積データを汚染して不正確なものにして、アルゴリズム全体に負の影響を与えることが可能になる。
この目標を達成するための方法の1つに、期限切れになったドメイン名を購入するというものがある。ドメイン名は毎日、どこかのものが期限切れになっているため、まったく関係のない他人が購入することもできる。データの汚染を考えている攻撃者にとってはまたとない機会と言えるだろう。