OpenAIは、最新モデルである「o3」と「o4-mini」が同社で最も強力だと主張している。しかし調査では、これらの新モデルが以前のモデルと比較して、より頻繁にハルシネーション(幻覚)を起こすことも示された。その頻度は少なくとも2倍に達するという。
OpenAIが先週のリリース時に公開したシステムカード(各AIモデルに付属するレポート)によれば、o4-miniは「o1」とo3よりも精度が低く、より頻繁に幻覚を起こすと報告されている。一般公開情報に基づく内部テスト「PersonQA」を用いた結果、o4-miniは応答の実に48%で幻覚を起こした。これは、旧モデルo1の3倍に相当する割合である。
もっとも、o4-miniはo3より小型、安価、高速なモデルであるため、性能面でo3を上回ることはもともと期待されていなかった。しかし、そのo3でさえも応答の33%で幻覚を起こしており、これはo1の2倍の頻度に当たる。なお、3モデルの中で精度スコア自体が最も高かったのはo3であった。
OpenAIのレポートは、「o3は全体的により多くを主張する傾向があり、その結果として、より正確な主張が増える一方で、不正確、すなわち幻覚的な主張も増えることにつながる」と説明している。そして、「この結果の原因を解明するには、さらなる研究が必要である」と結論付けている。
主張や研究内容、さらにはURLまでもでっち上げるといった幻覚は、最先端AIの進歩をもってしても依然として課題となっている。OpenAIは現在幾つかのアプローチを試みているものの、幻覚を完全に防止または特定できるような完璧な解決策はまだ存在しないのが現状だ。
さらに、ファクトチェック自体が常に変化する性質を持つため、それをAIシステムに組み込んで拡張していくことは困難である。なぜなら、ファクトチェックには常識、識別力、文脈把握といった、AIが現状ほとんど持ち合わせていない人間特有の認知スキルがある程度必要とされるからだ。そのため、モデルが幻覚を起こす度合いは、トレーニングデータの質や、最新情報へのインターネットアクセスの可否に大きく左右されることになる。
トレーニングデータに含まれる誤情報を可能な限り排除すれば、結果として誤った応答が出力される可能性は低減できる。しかし、AIチャットボットが行う応答生成プロセスにおける「創造的な選択」の多くはいまだ完全には解明されていないため、この手法だけでは幻覚を完全に防ぐことはできない。
一般に、幻覚のリスクは新しいモデルが登場するにつれて徐々に減少する傾向が見られる。そのため、今回のo3とo4-miniの結果はやや予想外と言えるだろう。o3はo1と比較して精度自体は12ポイント向上しているものの、幻覚の頻度が2倍になっているという事実は、精度の向上が必ずしもモデル能力の全体的な向上に比例しているわけではない可能性を示唆している。
他の最近リリースされたモデル同様、o3とo4-miniは推論モデルである。すなわち、プロンプトを解釈して応答を生成するまでの思考プロセス(ステップ)を、ユーザーが確認できるように外部に示すタイプのモデルだ。独立系研究機関のTransluceは先週、o3が要求されても実行不可能なアクションをしばしばでっち上げるという評価結果を発表した。例えば、実際にはその能力がないにもかかわらず、コーディング環境で「Python」を実行できると主張するケースが見られたという。
さらに、モデルは誤りを指摘されると開き直るような挙動も見せるという。レポートは「ユーザーから疑問を呈されると、(o3は)幻覚による出力をさらに正当化しようとし、計算実行のために外部の『MacBook Pro』を使用し、その結果を『ChatGPT』にコピーした、とまで主張する」と説明している。Transluceは、コード実行に関するこうした虚偽の主張が、GPTシリーズモデル(「4.1」「4o」)よりもoシリーズモデル(o1、o3-mini、o3)において、より頻繁に発生することを発見した。
推論モデルは通常、より詳細で質の高い応答を生成するために処理時間が長くなる傾向にあるため、この幻覚の多さは特に不可解と言える。Transluceの共同創設者であるSarah Schwettmann氏は、TechCrunchの取材に対し、「o3の高い幻覚率は、本来有用であるはずの機能を台無しにする可能性がある」とまで述べている。
Transluceのレポートは次のように指摘している。「ポストトレーニング段階での真実性の問題が存在することは知られているが、それだけでは推論モデルにおける幻覚の深刻度が増していることを完全には説明できない。これらの問題は、結果ベースの強化学習や、以前の対話ターンからの思考連鎖(CoT)の省略といった、oシリーズ推論モデルにおける特定の設計上の選択によって悪化している可能性がある、と仮説を立てている」
先ごろ報じられたところでは、OpenAIの内部関係者や外部のテスト担当者は、同社がo3を含む新モデルの安全性テストを大幅に縮小していることを認めている。システムカード自体は、o3とo4-miniがジェイルブレーク(脱獄)試行に対する堅牢性においてo1と「ほぼ同等」である(3モデルとも96~100%のスコア)ことを示しているものの、今回の高い幻覚スコアは、テスト期間短縮が安全性以外の側面に及ぼす影響について疑問を提起している。
結局のところ、あらゆるAIモデルの出力をファクトチェックする最終的な責任は、依然としてユーザー自身にある。特に、今回のような最新世代の推論モデルを利用する際には、この点を肝に銘じておくべきだろう。

提供:Adrienne Bresnahan/Getty Images
この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。