「Gemini 2.5 Pro」を発表してからわずか数週間で、Googleが早くも次の最高性能モデルを発表した。
Googleは米国時間4月17日、「Gemini API」「AI Studio」「Vertex AI」でのプレビューという形で、「Gemini 2.5 Flash」の「初期バージョン」をリリースした。このモデルでは、ナレッジカットオフ(情報の最終更新日)は2025年1月で、テキストや画像、動画、音声のプロンプトに対応し、コンテキストウィンドウは最大で100万トークンに設定されている。
Googleによると、この新バージョンは「Gemini 2.0 Flash」をもとにして機能をさらに拡張し、推論性能が向上しているが、「速度やコスト面での優位性も損なわれていない」という。推論モデルでは、回答する前の「思考」(クエリーの解釈)により多くの時間を費やす。そのため、理屈の上では、速度を優先するこれまでのモデルと比べて、ユーザーの求めているものに近い、より網羅的で直接的な出力が得られるはずだ。推論モデルはまた、複数のステップを要する問題やタスクに正確に対応するのに向いた性能を持つ。
「Gemini 2.5 Flashは、『Chatbot Arena』の『Hard Prompts』カテゴリーで強力なパフォーマンスを発揮し、Gemini 2.5 Proに次ぐ2位にランキングされている」とGoogleは発表で述べている。
最も費用効率が高いとうたう新モデルについて、Googleは「パフォーマンスを最大化するために、開発者側でモデルがどれだけ思考するかを設定できる」と述べている。これにより、開発者は、最も必要な状況になったときのみ推論の機能を使い、それに応じた料金を払う「thinking budget(思考予算)」という仕組みを使えるようになった。この場合、推論機能をオンにすると、出力価格は100万トークン当たり60セント(約85円)から3.50ドル(約500円)へと上昇する。

Screenshot by Radhika Rajkumar/ZDNET
開発者からthinking budgetを与えられなかった場合は、モデルがリクエストの複雑さの度合いを評価して、そのクエリーに必要な思考ニーズを判断する。例えば「米国にはいくつの州があるか?」といった、推論の必要性が最も少ないタイプのプロンプトは、複数のステップを用いて解く必要がある数学の問題とは別物と判断するわけだ。Googleによると、Gemini 2.0 Flashを使用した場合と同様のレイテンシーとコストを実現したい場合は、thinking budgetを0に設定すればいいという。
Gemini 2.5 Flashは、「Humanity's Last Exam」(HLE)でのスコアが12%をマークした。これは「Claude 3.7 Sonnet」や「DeepSeek-R1」などの競合モデルを上回る数字だが、OpenAIがリリースしたばかりの「o4-mini」のスコア(14%)には届かなかった。HLEは、急速に進化するモデルにとって業界テストの問題が簡単になりすぎていることを受けて制定された、新たなベンチマークテストだ。

提供:Yuichiro Chino/Getty Images
この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。