新たなテクノロジーが普及すると必ず、それをハッキングしようとする人間が出てくる。人工知能(AI)、特に生成型AIもその例外ではない。この問題に立ち向かうために、Googleはおよそ1年半前にAI専任の「レッドチーム」を立ち上げ、AIを攻撃目標に据えたハッキング手法について調査することにした。
提供:Andrzej Wojcicki/Science Photo Library via Getty Images
同チームを率いるDaniel Fabian氏はThe Registerとのインタビューで「現実世界において、機械学習(ML)システムに狙いを定めている敵対者に関する脅威情報はそれほど多くない」と述べた。同氏のチームは既に、今日のAIシステムにおける最大級の脆弱性について指摘している。
Fabian氏の説明によると、MLシステムに対する最大級の脅威には敵対的攻撃や、データポイズニング攻撃、プロンプトインジェクション攻撃、バックドア攻撃などがあるという。こうしたMLシステムには「ChatGPT」や、Googleの「Bard」、「Bing」で用いられているAIといった大規模言語モデル(LLM)が含まれている。
この種の攻撃は一般的に「Tactics(戦略)」「Techniques(技術)」「Procedures(手順)」の頭文字を取った「TTP」という言葉で語られている。
Fabian氏はThe Registerに「われわれは、敵対者のように考えられる人材を求めている」と述べるとともに、「われわれはMLの世界において、現実世界の敵対者が次に狙うところを予測しようと力を注いでいる」と述べた。
GoogleのAIレッドチームは最近、AIシステムを標的とする攻撃者らが多用しているTTPについて概説するレポートを公開した。
#1:AIシステムに対する敵対的攻撃
敵対的攻撃には、MLモデルのミスリードを目的として入力を記述するという行為も含まれている。これにより誤った出力や、他の状況では目にすることのない出力が、そういった出力を避けるよう別途モデルを訓練している場合であっても生成される。
GoogleのAIレッドチームのレポートには「敵対的攻撃が成功した場合の影響は、ごくわずかなものから致命的なものまでさまざまであり、AI classifier(AIによるテキストや音声の分類器)のユースケースに強く依存する」と記されている。