しかし、このような直接的な編集は1つのリスクにすぎない。おそらく、もっと重大な脅威はデータポイズニングによるものだ。この攻撃では、AI構築用のトレーニングデータが攻撃者によって書き換えられ、AIによる意思決定が改変される。
「データポイズニングは特に強大な脅威であり、もっと注意を向けるべきものだ。現時点では、高度な敵対的知識を必要とせずに攻撃を実行できる。モデルのポイズニングに成功すれば、モデルが下流まで広範に使用されるため、影響範囲を拡大できる。また、いったんモデルに侵入したポイズニングの検出や対処は非常に難しい」(Slater氏)
Two Six TechnologiesのDavid Slater氏。
提供:Two Six
アルゴリズムが閉じられた環境内でトレーニングされている場合、理論上は、ハッカーが侵入できなければ、ポイズニングから十分に保護されているといえる。
しかし、パブリックドメインから抽出されているデータセットに基づいてAIがトレーニングされている場合は問題が重大化する。特に、その事実が人々に知られている場合はそうだ。損害を与えたい、あるいはただ嫌がらせをしたいという理由で、アルゴリズムを汚染しようとする者が世の中にはいるためだ。
「今はどこからでもデータが収集される。インターネット全体のデータを基にモデルがトレーニングされるため、ポイズニングには気を付けなければならない」とCarlini氏は語る。
「インターネットを巡回して、もらえるデータを何でももらってトレーニングしようとしていても、インターネットの利用者の中には、ただ世界が燃え上がるのを眺めたいという理由で悪行を働く者もいるのだから」
このような傾向を示す悪例としては、Microsoftの人工知能ボット「Tay」が有名だ。Microsoftは人間との交流や学びを目的として、TayをTwitterに送り出した。自然言語の使い方や人間らしい話し方を習得できるだろうという思いからだ。しかし、わずか数時間で、ユーザーはTayを汚染して攻撃的な言葉を話すように仕向けたため、MicrosoftがTayを停止させるに至った。
これは、AIシステムをデータポイズニングから保護する方法を考えるうえで、検討しなければならない懸念材料である。そして、これがGARDの目的の1つでもある。
「現在検討しているのは、ポイズニングへの防御のあり方について、どう評価していくかということ。これは非常に難しい問題だ」(Carlini氏)
チャットボットが攻撃的になるようにトレーニングすることも問題だが、医療データなどの重要な情報を学習しているアルゴリズムがあり、その知見が汚染された場合、患者に対する影響は悲惨なものになりかねない。
「文献を調査して、こういった攻撃が簡単に実行できることが分かる場合もある。だから、1つの情報だけで、がんを予測すべきではないかもしれない。おそらく、まだ人間が関わる必要があるのだろう」とCarlini氏は提案する。Carlini氏は、GARDの取り組みがシステムの安全性とセキュリティの向上につながることを期待している。それが技術の普及を遅らせることになるとしても、長期的に見れば公共の利益になるためである。
現代社会のAI
AIのセキュリティに関しては、すでに現実社会で問題が露見している。
たとえば、AIイラスト生成ツールは瞬く間に関心を集めた。数枚の自撮り画像を設定すれば、芸術性のあるプロフィール写真がずらりと生成される。ユーザーはそれらをソーシャルメディアで使用できる。こういったAIシステムはインターネット上にある無数の画像を基にトレーニングされており、多くのジャンルから新しいイメージを生成できる。問題は、AIがオリジナルのイラストに含まれるバイアスを混入して、女性の性的な画像を生成したり、欧米のスタイルを優先したりする傾向にあることだ。AIはトレーニングに使用されたデータに含まれるバイアスを何度も複製し、それによりバイアスを増強していく。
「ChatGPT」も、AIについて眼前に迫る課題を示す興味深い事例だ。このチャットボットは最近脚光を浴びており、AIがプログラミングから執筆まで、あらゆる分野の既存の概念を破壊しうることを示している。しかし、その隆盛により、たとえ人間がAIに対して完璧も求めていても、AIは完璧からは程遠いことも明らかになった。たとえば、ChatGPTを搭載した「Bing Chat」の初期ユーザーは、いわゆる「プロンプトインジェクション」攻撃を比較的容易に実行できることを発見した。この攻撃により、チャットボットの行動に適用されるルールや、そのコードネーム(Sydney)が暴露された。
そして、初期ユーザーがテストを続けるうちに、事実についてこのボットと論争するようになり、また、会話も次第に奇妙で不快なものになっていった。そのため、Microsoftは、このボットに調整を加え、おかしくなった発言の一部を停止した。