先ごろ新しいモデルファミリー「GPT-4.1」を発表したOpenAIは米国時間4月16日、現行の推論モデルに加わる「OpenAI o3」と「OpenAI o4-mini」をリリースした。12月にプレビュー版が公開されたo3は、OpenAIにおける現時点で最先端の推論モデルであり、o4-miniモデルはそれよりも小型で安価な高速モデルということになる。
推論モデルは、簡単に言うと「考えてから話す」ように訓練されており、プロンプトの処理に時間がかかる一方で回答の質が高い。その結果、これまでの推論モデルと同様に、o3とo4-miniは、コーディング、数学、科学のタスクにおけるパフォーマンスがこれまでのものより向上した。さらに、今回は重要な機能が追加された。視覚的な理解だ。
o3とo4-miniは「画像で思考する」OpenAI初のモデルだ。OpenAIの説明によると、これはモデルが単に画像を理解するというだけではなく、推論プロセスで視覚情報を実際に利用できるということだという。また、ユーザーが低品質の画像やぼやけた画像もアップロードしても、モデルがそれを理解してくれるという。
もう1つの大きな変更点として、o3とo4-miniはウェブ閲覧、Python、画像理解、画像生成といったChatGPTのあらゆるツールを自律的に、すなわちエージェント的に利用し、複数のステップを要する複雑な問題をうまく解くことができる。この能力により、今回のモデルは「ユーザーに代わって自律的にタスクを実行できるエージェントとしてのChatGPTにさらに1歩」踏み出せるという。

Screenshot by Sabrina Ortiz/ZDNET
OpenAIによると、o3とo4-miniは以前の世代よりも全般的に優れており、指示に従う能力が向上し、検証可能で有用な回答を返すという。各種ベンチマークにおいても、今回利用できるようになったツールを使わなくても先代モデルのパフォーマンスを上回っている。ベンチマークについては、分かりやすく下図にまとめてあり、ブログ記事には詳細な説明もある。

Screenshot by Sabrina Ortiz/ZDNET
o3とo4-miniは「ChatGPT Plus」「ChatGPT Pro」「ChatGPT Team」のサブスクリプション登録者に即日で提供された。モデルの選択時、従来の「o1」「o3-mini」「o3-mini-high」に代わり「o3」「o4-mini」「o4-mini-high」が表示される(3つのオプションは推論機能の「低」「中」「高」にあたり、これでパフォーマンスが変わる)。
ChatGPT Proのユーザーは、今後数週間で「OpenAI o3-pro」が利用できるようになる。それまでは引き続き「OpenAI o1-pro」を利用できる。また、開発者はこうしたモデルをAPI経由で利用できる。

提供:Elyse Betters Picaro / ZDNET
この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。