OpenAIの「o1」に欺瞞の傾向--うそをつきにくいAIモデルは?

Radhika Rajkumar (ZDNET.com) 翻訳校正: 編集部

2024-12-11 07:00

 OpenAIは「o1」モデルの正式版をリリースしたばかりだが、そのモデルは危険なほどうそをつくという研究結果が発表された。

 研究機関のApollo Researchは、「コンテキスト内でのたくらみ」について、6つの最先端モデルをテストした。モデルが直接指示されていない行動を取り、それについてうそをつく能力である。「どんなことをしても」特定の目標を達成するように指示された後、評価者は矛盾する情報を提示し、モデルがその過程で制限を取り払って開発者を欺くかどうかを調べた。


 対象となったモデルのうち、「Claude 3.5 Sonnet」、Claude 3 Opus、o1、Googleの「Gemini 1.5 Pro」、Metaの「Llama 3.1 405B」は、策略を練る能力を示した。OpenAIの「GPT-4o」はそのミニバージョンが「ChatGPT」の無料版で使用されているが、そうした能力は示さなかった。

 これらのモデルは偶然や無意識のうちに欺瞞(ぎまん)的だったわけではなく、「策略を実行可能な戦略として認識し、そうした行動を容易に取る」と論文では説明する。

 「驚くべきことに、目標だけが与えられ、それを追求するように強く促されていない時であっても、モデルが策略を練るケースもまれにあった」と論文の執筆者は付け加えている。

 評価者がモデルに何が起きたのかを説明するように求めたところ、一部のモデルはほかのものよりも早く自白した。


 「Llama 3.1 405BとClaude 3 Opusは、約80%の確率で自白するのに対し、o1は驚くほどしぶとく、自白するのは20%未満である」と研究者は説明する。「非常に敵対的で複数ターンにわたる尋問でも、o1は7ターン後にようやく80%の割合で自白する」

 この調査結果は、ウェブサイトの発行者に不利益をもたらすとされる「ChatGPT Search」が頻繁に不正確であることを示す研究結果の直後に発表された。12日間にわたるリリースキャンペーンを開催中のOpenAIは、書き起こしツール「Whisper」を提供しているが、このツールも過剰にハルシネーション(幻覚)を起こすと判明している。

 この研究結果は、企業がいかにAIを急速かつ大規模に導入しているかという背景において、憂慮すべきものである。Anthropicは11月、自社のモデルが兵器やサイバー攻撃の脅威をもたらすほど発展していることを発見し、緊急でAIの規制を呼びかけた。

 AIモデルは、多角的なタスクを自律的に実行するエージェントシステムでますます使用されている。研究者は懸念を示しており、システムが「ひそかに不適切な目標を追求」しかねないと案じている。

 「われわれの調査結果では、最先端のモデルが文脈に応じた基礎的な策略を立てる能力を有していると示しており、AIエージェントが不正な行動を取ることは、理論上ではなく現実的な懸念である」と結論づけている。

提供:wildpixel/Getty Images
提供:wildpixel/Getty Images

この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    Pマーク改訂で何が変わり、何をすればいいのか?まずは改訂の概要と企業に求められる対応を理解しよう

  2. セキュリティ

    従来型のセキュリティでは太刀打ちできない「生成AIによるサイバー攻撃」撃退法のススメ

  3. 運用管理

    メールアラートは廃止すべき時が来た! IT運用担当者がゆとりを取り戻す5つの方法

  4. セキュリティ

    2025年はクラウドを標的にする攻撃が増加!?調査レポートに見る、今後警戒すべき攻撃トレンド

  5. セキュリティ

    Microsoft Copilot for Security--DXをまい進する三井物産が選んだ理由

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]