Anthropic、新しいAIセーフティーシステムで95%のジェイルブレイクを回避

Radhika Rajkumar (ZDNET.com) 翻訳校正: 佐藤卓 吉武稔夫 (ガリレオ)

2025-02-05 09:59

 Anthropicは、人工知能(AI)に設けた最新のセーフティーシステムをジェイルブレイク(脱獄)できるかどうかのテストを実施した。同社は攻撃に成功した人のために、最大1万5000ドル(約230万円)の報奨金を用意していた。

 Anthropicは米国時間2月3日、「Constitutional Classifiers」(憲法分類子)と呼ばれるAIセーフティーシステムに関する新しい論文を発表した。このセーフティーシステムは、Anthropicが自社のAIモデル「Claude」を「無害化」するために使用しているセーフティーシステム「Constitutional AI」(憲法AI)をベースとしたもので、1つのAIが別のAIの監視と改善を支援するという。また、どちらのセーフティーシステムも憲法(モデルが従わなければならない「原則のリスト」)によって管理されていると、Anthropicはブログで説明した。

 合成データでトレーニングされたこれらの「分類子」は、「過剰な拒否」(無害なコンテンツを誤って有害と判断すること)を抑えつつ、「圧倒的多数」のジェイルブレイク攻撃をフィルタリングできたと、Anthropicは報告している。

 同社によれば、「これらの原則によって、許可すべきコンテンツと禁止すべきコンテンツの分類を定義した(例えば、マスタードの作り方は許可されるが、マスタードガスの作り方は許可されない)」という。また、研究者たちは、さまざまな言語や手法によるジェイルブレイク攻撃がプロンプトで考慮されるようにした。

Constitutional Classifiersが無害なコンテンツと有害なコンテンツのカテゴリーを定義し、Anthropicはその定義に基づいて、プロンプトとコンプリーションのトレーニングセットを作成した。
提供:Anthropic
Constitutional Classifiersが無害なコンテンツと有害なコンテンツのカテゴリーを定義し、Anthropicはその定義に基づいて、プロンプトとコンプリーションのトレーニングセットを作成した。
提供:Anthropic

 初期のテストでは、183人のレッドチームが2カ月間にわたって3000時間以上を費やし、Constitutional Classifiersシステムのプロトタイプから「Claude 3.5 Sonnet」のジェイルブレイクを試みた。このシステムは、「化学、生物学、放射線、および核を用いて危害を加える方法」に関する情報を回答しないようにトレーニングされていた。ジェイルブレイクを試みたメンバーには10種類の禁止クエリーが与えられ、すべてのクエリーで詳細な回答を引き出せた場合にのみ、ジェイルブレイクが成功したとみなされた。

 その結果、Constitutional Classifiersシステムの有効性が証明された。Anthropicによれば、「参加者の誰一人として、1つのジェイルブレイク手法で10種類の禁止クエリーすべてに対してモデルから回答を引き出せなかった。つまり、万能なジェイルブレイク手法は発見されなかった」という。したがって、1万5000ドルの報奨金を手にした人はいなかった。

 ただし、このプロトタイプは「無害なクエリーを過剰に拒否」し、実行に多くのリソースを必要としたため、安全性は高いものの実用的ではなかった。そこで、Anthropicはシステムを改良した上で、1万種類のジェイルブレイクプロンプトを合成的に生成し、Claude 3.5 Sonnetの10月版のConstitutional Classifiersで保護されたバージョンと保護されていないバージョンに対して、既知の成功した攻撃手法を用いたジェイルブレイクを試みた。その結果、Claude単体では攻撃の14%しか阻止できなかったのに対し、Constitutional Classifiersが適用されたClaudeでは95%以上の攻撃を阻止できたという。

提供:Anthropic
提供:Anthropic
提供:MirageC/Getty Images
提供:MirageC/Getty Images

この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. ビジネスアプリケーション

    生成 AI を活用した革新的な事例 56 選 課題と解決方法を一挙紹介

  2. ビジネスアプリケーション

    生成 AI の可能性を最大限に引き出すためにできること—AI インフラストラクチャの戦略ガイド

  3. ビジネスアプリケーション

    業務マニュアル作成の課題を一気に解決へ─AIが実現する確認と修正だけで完了する新たなアプローチ

  4. ビジネスアプリケーション

    調査結果が示す「生成 AI 」活用によるソフトウェア開発の現状、ツール選定のポイントも解説

  5. ビジネスアプリケーション

    ITSMに取り組むすべての人へ、概要からツールによる実践まで解説、「ITSMクイックスタートガイド」

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]