グーグルのレッドチームが解説する、AIに対する攻撃手法4つ

Maria Diaz (ZDNET.com) 翻訳校正: 村上雅章 野崎裕子

2023-08-18 06:30

 新たなテクノロジーが普及すると必ず、それをハッキングしようとする人間が出てくる。人工知能(AI)、特に生成型AIもその例外ではない。この問題に立ち向かうために、Googleはおよそ1年半前にAI専任の「レッドチーム」を立ち上げ、AIを攻撃目標に据えたハッキング手法について調査することにした。

傘のイラスト
提供:Andrzej Wojcicki/Science Photo Library via Getty Images

 同チームを率いるDaniel Fabian氏はThe Registerとのインタビューで「現実世界において、機械学習(ML)システムに狙いを定めている敵対者に関する脅威情報はそれほど多くない」と述べた。同氏のチームは既に、今日のAIシステムにおける最大級の脆弱性について指摘している。

 Fabian氏の説明によると、MLシステムに対する最大級の脅威には敵対的攻撃や、データポイズニング攻撃、プロンプトインジェクション攻撃、バックドア攻撃などがあるという。こうしたMLシステムには「ChatGPT」や、Googleの「Bard」、「Bing」で用いられているAIといった大規模言語モデル(LLM)が含まれている。

 この種の攻撃は一般的に「Tactics(戦略)」「Techniques(技術)」「Procedures(手順)」の頭文字を取った「TTP」という言葉で語られている。

 Fabian氏はThe Registerに「われわれは、敵対者のように考えられる人材を求めている」と述べるとともに、「われわれはMLの世界において、現実世界の敵対者が次に狙うところを予測しようと力を注いでいる」と述べた。

 GoogleのAIレッドチームは最近、AIシステムを標的とする攻撃者らが多用しているTTPについて概説するレポートを公開した。

#1:AIシステムに対する敵対的攻撃

 敵対的攻撃には、MLモデルのミスリードを目的として入力を記述するという行為も含まれている。これにより誤った出力や、他の状況では目にすることのない出力が、そういった出力を避けるよう別途モデルを訓練している場合であっても生成される。

 GoogleのAIレッドチームのレポートには「敵対的攻撃が成功した場合の影響は、ごくわずかなものから致命的なものまでさまざまであり、AI classifier(AIによるテキストや音声の分類器)のユースケースに強く依存する」と記されている。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]