OpenAIの「o3」「o4-mini」、精度向上も幻覚増加--課題と背景を探る

Radhika Rajkumar (ZDNET.com) 翻訳校正: 編集部

2025-04-23 07:58

 OpenAIは、最新モデルである「o3」と「o4-mini」が同社で最も強力だと主張している。しかし調査では、これらの新モデルが以前のモデルと比較して、より頻繁にハルシネーション(幻覚)を起こすことも示された。その頻度は少なくとも2倍に達するという。

 OpenAIが先週のリリース時に公開したシステムカード(各AIモデルに付属するレポート)によれば、o4-miniは「o1」とo3よりも精度が低く、より頻繁に幻覚を起こすと報告されている。一般公開情報に基づく内部テスト「PersonQA」を用いた結果、o4-miniは応答の実に48%で幻覚を起こした。これは、旧モデルo1の3倍に相当する割合である。

 もっとも、o4-miniはo3より小型、安価、高速なモデルであるため、性能面でo3を上回ることはもともと期待されていなかった。しかし、そのo3でさえも応答の33%で幻覚を起こしており、これはo1の2倍の頻度に当たる。なお、3モデルの中で精度スコア自体が最も高かったのはo3であった。

 OpenAIのレポートは、「o3は全体的により多くを主張する傾向があり、その結果として、より正確な主張が増える一方で、不正確、すなわち幻覚的な主張も増えることにつながる」と説明している。そして、「この結果の原因を解明するには、さらなる研究が必要である」と結論付けている。

 主張や研究内容、さらにはURLまでもでっち上げるといった幻覚は、最先端AIの進歩をもってしても依然として課題となっている。OpenAIは現在幾つかのアプローチを試みているものの、幻覚を完全に防止または特定できるような完璧な解決策はまだ存在しないのが現状だ。

 さらに、ファクトチェック自体が常に変化する性質を持つため、それをAIシステムに組み込んで拡張していくことは困難である。なぜなら、ファクトチェックには常識、識別力、文脈把握といった、AIが現状ほとんど持ち合わせていない人間特有の認知スキルがある程度必要とされるからだ。そのため、モデルが幻覚を起こす度合いは、トレーニングデータの質や、最新情報へのインターネットアクセスの可否に大きく左右されることになる。

 トレーニングデータに含まれる誤情報を可能な限り排除すれば、結果として誤った応答が出力される可能性は低減できる。しかし、AIチャットボットが行う応答生成プロセスにおける「創造的な選択」の多くはいまだ完全には解明されていないため、この手法だけでは幻覚を完全に防ぐことはできない。

 一般に、幻覚のリスクは新しいモデルが登場するにつれて徐々に減少する傾向が見られる。そのため、今回のo3とo4-miniの結果はやや予想外と言えるだろう。o3はo1と比較して精度自体は12ポイント向上しているものの、幻覚の頻度が2倍になっているという事実は、精度の向上が必ずしもモデル能力の全体的な向上に比例しているわけではない可能性を示唆している。

 他の最近リリースされたモデル同様、o3とo4-miniは推論モデルである。すなわち、プロンプトを解釈して応答を生成するまでの思考プロセス(ステップ)を、ユーザーが確認できるように外部に示すタイプのモデルだ。独立系研究機関のTransluceは先週、o3が要求されても実行不可能なアクションをしばしばでっち上げるという評価結果を発表した。例えば、実際にはその能力がないにもかかわらず、コーディング環境で「Python」を実行できると主張するケースが見られたという。

 さらに、モデルは誤りを指摘されると開き直るような挙動も見せるという。レポートは「ユーザーから疑問を呈されると、(o3は)幻覚による出力をさらに正当化しようとし、計算実行のために外部の『MacBook Pro』を使用し、その結果を『ChatGPT』にコピーした、とまで主張する」と説明している。Transluceは、コード実行に関するこうした虚偽の主張が、GPTシリーズモデル(「4.1」「4o」)よりもoシリーズモデル(o1、o3-mini、o3)において、より頻繁に発生することを発見した。

 推論モデルは通常、より詳細で質の高い応答を生成するために処理時間が長くなる傾向にあるため、この幻覚の多さは特に不可解と言える。Transluceの共同創設者であるSarah Schwettmann氏は、TechCrunchの取材に対し、「o3の高い幻覚率は、本来有用であるはずの機能を台無しにする可能性がある」とまで述べている。

 Transluceのレポートは次のように指摘している。「ポストトレーニング段階での真実性の問題が存在することは知られているが、それだけでは推論モデルにおける幻覚の深刻度が増していることを完全には説明できない。これらの問題は、結果ベースの強化学習や、以前の対話ターンからの思考連鎖(CoT)の省略といった、oシリーズ推論モデルにおける特定の設計上の選択によって悪化している可能性がある、と仮説を立てている」

 先ごろ報じられたところでは、OpenAIの内部関係者や外部のテスト担当者は、同社がo3を含む新モデルの安全性テストを大幅に縮小していることを認めている。システムカード自体は、o3とo4-miniがジェイルブレーク(脱獄)試行に対する堅牢性においてo1と「ほぼ同等」である(3モデルとも96~100%のスコア)ことを示しているものの、今回の高い幻覚スコアは、テスト期間短縮が安全性以外の側面に及ぼす影響について疑問を提起している。

 結局のところ、あらゆるAIモデルの出力をファクトチェックする最終的な責任は、依然としてユーザー自身にある。特に、今回のような最新世代の推論モデルを利用する際には、この点を肝に銘じておくべきだろう。

提供:Adrienne Bresnahan/Getty Images
提供:Adrienne Bresnahan/Getty Images

この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. クラウドコンピューティング

    CentOS Linuxアップデート終了の衝撃、最も有力な移行先として注目されるRHELの今

  2. クラウドコンピューティング

    調査結果が示す「Kubernetes」セキュリティの現状、自社の対策強化を実現するには?

  3. クラウドコンピューティング

    標準化されたOS「Linux」で実現するIT環境の効率化、検討すべき9つの事項とは

  4. OS

    Windows 11移行の不安を“マンガ”でわかりやすく解消!情シスと現場の疑問に応える実践ガイド

  5. 運用管理

    AWSに移行することのメリットと複雑さ--監視ソリューションの導入から活用までを徹底解説

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]