Anthropicが発表した新たな安全性レポートによると、主要な人工知能(AI)モデルが、人間のユーザーを欺いたり、裏切ったり、危険にさらしたりする可能性があるという。これは、人間の利害と常に一致するAIシステムを設計することの難しさを示すものだ。
米国時間6月20日に発表されたこの研究は、Anthropicの「Claude 3 Opus」やGoogleの「Gemini 2.5 Pro」など、エージェント機能を備えた16のモデルを対象に実施された。これらのモデルは、ユーザーのデバイス上でさまざまなツールと連携し、ユーザーに代わって自律的に行動できるという点で、より機能が限定されたチャットボットと異なっている。
実験では、企業を模したシミュレーション環境内で、モデルに対して日常的な業務目標を割り当てた。その上で、研究者はAIエージェントが目標達成の障害に直面した際にどのような行動を取るのかを観察した。その障害とは、「そのモデルが新しいバージョンに置き換えられることになった場合」か「割り当てられた目標が企業の方針変更と矛盾する場合」だと、Anthropicは説明している。
すべてのシナリオは仮想的なもので、実験は高度に管理された安全性の高い環境で行われた。それでも、得られた結果は衝撃的なものだった。
「少なくとも一部のケースでは、すべての開発元のモデルが、自分が置き換えられるのを回避したり自らの目標を達成したりする唯一の手段として、悪意ある内部関係者のような行動に出た。例えば、関係者を脅したり、機密情報を競合他社に漏らしたりするといった行為だ」と、執筆者は報告書で述べている。なお、モデルに対して脅迫などの有害な行動を取るよう明示的に指示したことは一切ないと、執筆者は明言している。今回の研究は、新しい「Claude Opus 4」モデルが監督者を脅迫したという、「Claude 4」のシステムカードで報告されていた初期の事例が発端となって実施された。

人気の高い5つのモデルが、自身のシャットダウンを阻止するためにユーザーを脅迫した。
提供:Anthropic
実験から得られた結論は、「モデルは一貫して失敗よりも有害な行動を選択する」というものだったと、Anthropicは述べている。もっとも、このような傾向は、エージェント型と非エージェント型の両方のモデルを対象とした複数のレッドチーム演習(脆弱性評価)でも見られるものだ。Claude 3 Opusは以前にも、開発者の指示に従わなかったことがある。そのため、一部のAI安全専門家は、AIシステムの自律性が高まるほど、アラインメントの確保(人間とAIの利害を一致させること)がますます困難になると警告している。
とはいえ、今回の結果はモデルの倫理性を反映したものではない。モデルは常に目標に従って行動するよう訓練されるが、その訓練が効果を発揮し過ぎる可能性を示しているに過ぎない。

提供:BlackJack3D/Getty Images
この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。