グーグルのレッドチームが解説する、AIに対する攻撃手法4つ

Maria Diaz （ZDNET.com）翻訳校正：村上雅章野崎裕子

2023-08-18 06:30

　新たなテクノロジーが普及すると必ず、それをハッキングしようとする人間が出てくる。人工知能（AI）、特に生成型AIもその例外ではない。この問題に立ち向かうために、Googleはおよそ1年半前にAI専任の「レッドチーム」を立ち上げ、AIを攻撃目標に据えたハッキング手法について調査することにした。

提供：Andrzej Wojcicki/Science Photo Library via Getty Images

　同チームを率いるDaniel Fabian氏はThe Registerとのインタビューで「現実世界において、機械学習（ML）システムに狙いを定めている敵対者に関する脅威情報はそれほど多くない」と述べた。同氏のチームは既に、今日のAIシステムにおける最大級の脆弱性について指摘している。

　Fabian氏の説明によると、MLシステムに対する最大級の脅威には敵対的攻撃や、データポイズニング攻撃、プロンプトインジェクション攻撃、バックドア攻撃などがあるという。こうしたMLシステムには「ChatGPT」や、Googleの「Bard」、「Bing」で用いられているAIといった大規模言語モデル（LLM）が含まれている。

　この種の攻撃は一般的に「Tactics（戦略）」「Techniques（技術）」「Procedures（手順）」の頭文字を取った「TTP」という言葉で語られている。

　Fabian氏はThe Registerに「われわれは、敵対者のように考えられる人材を求めている」と述べるとともに、「われわれはMLの世界において、現実世界の敵対者が次に狙うところを予測しようと力を注いでいる」と述べた。

　GoogleのAIレッドチームは最近、AIシステムを標的とする攻撃者らが多用しているTTPについて概説するレポートを公開した。