AIに猫を犬だと思わせること、あるいは研究者が実証したようにパンダをテナガザルだと思わせることは、それほど大きな懸念事項ではないが、わずかな混乱が危険な結果を引き起こすような状況は容易に想像できる。たとえば、自動車が歩行者を誤って車両だと認識するような状況だ。
人間が関わっていればエラーに気づくだろうが、自動化による制御がもっと進めば、人の目でAIの作業を二重チェックしてパンダが本当にパンダであると確認することはなくなっているかもしれない。
「敵対的攻撃には、人間ならば変更が加えられたとすぐに気づくようなものもある。しかし、人間が関わっていなければ、自動システムを欺けるかどうかだけが重要になる」
ある典型的な画像に敵対的な入力を重ね合わせることで、この分類ツールはパンダをテナガザルであると誤って分類した。
提供:DARPA
さらに、このような誤分類は理論上の例だけにとどまらない。数年前、一部の研究者により、ニューラルネットワークが亀をライフルとして誤認しうる、敵対的な3D物体の作成方法が提示された。
カリフォルニア大学バークレー校教授のDawn Song氏も、停止標識の特定の位置にステッカーを貼ることで、AIに制限速度標識として読み取らせることが可能だとした。この研究は、自動運転車を制御する画像分類アルゴリズムが欺かれる恐れがあることを示唆している。
ここで補足しておくと、ステッカーは画像分類アルゴリズムの誤解釈を引き起こすようなデザインとなっており、また適切な位置に貼る必要もあった。それでも、このようにAIを欺けるのなら、たとえ入念な整備の上でのテストだったとしても、極めて現実的なリスクがあるということが実証されたと言える。それは、人間に対しては意味がなくてもアルゴリズムにとって意味のある応答をするように、アルゴリズムをだますことができるというリスクだ。
AIへの攻撃をいかに阻止するか
では、こういった不安を駆り立てる課題にどう立ち向かうべきか。そのヒントは、DARPAが莫大な資金を投じるGARDプロジェクトにあるかもしれない。このプロジェクトの主な目標は3つある。第1に、機械学習を脆弱性や妨害から保護するアルゴリズムを今すぐ開発すること。第2に、AI技術が高度化して普及が進んでも、AIアルゴリズムを攻撃から確実に防御するための方法について、理論を構築することだ。
そして第3に、AIシステムからの攻撃を保護できるツールや、AIの防御が十分であるかを評価できるツールを開発し、そういったツールをDARPAの内部で抱え込まずに広範に共有することを目指している。
気が滅入るような前例はすでにある。セキュリティを後から考慮した場合にどうなるかは、インターネット自体のこれまでの発展から見て取れる。われわれは、技術の新旧を問わず、現在も脆弱性や抜け穴を悪用したサイバー犯罪や悪意あるハッカーへの対処に追われているからだ。
DARPAのプログラムマネージャー、Bruce Draper氏。
提供:DARPA
AIの場合、その危険性は一層高まる。GARDの目標は、AIの乱用、そしてAIに対する攻撃を、手遅れになる前に阻止することだ。
「現在、多くの人々がAIを利用しているが、安全性を重要視せずに利用している場合が多い。Netflixは次に視聴すべき動画をお勧めしてくる。それがハッキングされたとしても、一生を棒に振ることはないだろう。しかし、自動運転車などを考えれば、AIシステムが安全であり攻撃を受けていないことがより一層重要になる」とDraper氏は説明する。
Draper氏によると、現時点で敵対的AIの実数は極めて少ないが、今後状況は変わると考えているという。「AIの価値が上がり、広範に普及するほど、敵対的AIも増えていくだろう。だからこそ今、GARDでこの取り組みに挑んでいる」と警鐘を鳴らす。
DARPAは、IBMやGoogleなどの多数のテクノロジー企業と協力して、DARPA GARDプログラムに対して、AIモデルの堅牢性や敵対的攻撃に対する防御力を評価するためのプラットフォーム、ライブラリー、データセット、トレーニング資料を提供している。現在対峙している攻撃も、将来対峙することになる攻撃もその対象だ。