Elon Musk氏は、2015年にOpenAIが設立された際に出資者の一人だった。しかしその後、同氏は同社との関係を完全に断ち切り、OpenAIが当初の非営利活動から逸脱したと主張している。そして現在、同氏は自身のAI企業xAIを設立し、「Grok」と呼ばれる大規模言語モデル(LLM)を開発している。そのxAIが発表した新モデル「Grok 3」は、チャットボットのリーダーボードでトップに急上昇している。
先日、Musk氏はライブ配信を開催し、xAIの最新AIモデル群であるGrok 3を発表した。Grok 3の開発には、xAIがテネシー州メンフィスに構築した20万個のGPUを擁する独自のデータセンターを活用し、前モデル「Grok 2」と比べて10倍のトレーニングを実施した。
— xAI (@xai) February 18, 2025
「Grok 3を発表できることをとてもうれしく思う。Grok 2よりもはるかに優れた能力を持つと確信している」と、Musk氏はライブ配信で語った。
このモデルファミリーには、Grok 3を基盤とする推論モデルも含まれている。OpenAIの「o1」や「o3」モデルなど、市場に出回っている他の推論モデルと同様に、「Grok 3 Reasoning」のベータ版は、より質の高い結果を出力するために、思考時間を長めに取る設計となっている。
全てのGrok 3モデルは、主要なモデルとの競合を目標に開発されている。Grok 3はOpenAIの「GPT-4o」やGoogleの「Gemini」と競合し、Grok 3 Reasoningは「03-mini(high)」、o1、「Deepseek-R1」などと競合する。市場に登場してから24時間も経たないうちに、xAIの製品はベンチマークとリーダーボードを独占するほどの勢いを見せている。
Grok 3の事前トレーニングは1月初旬に終了しており、現在もトレーニング中ではあるが、既に幾つかのAIベンチマークで主要なモデルを上回るパフォーマンスを発揮している。具体的には、数学的推論をテストする「AIME '24」、科学(特に生物学、物理学、化学)の習熟度をテストする「GPQA」、コーディング能力をテストする「LCB Oct-Feb」などで優れた結果を出している。

ベンチマーク結果(提供:Grok)
Grok 3と「Grok 3 mini」の推論モデルは現在も開発中だが、xAIがライブ配信中に共有した結果によると、両モデルのベータ版は、AIME、GPQA、LCBの分野において、03-mini(high)、o1、DeepSeek-R1、「Gemini-2 Flash Thinking」と比較しても遜色ないパフォーマンスを示している。

提供:Screenshot by Sabrina Ortiz/ZDNET
技術ベンチマーク以外でも、Grok 3はChatbot Arenaのランキングでも急上昇した。Chatbot Arenaは、ユーザーが2つのLLMと並行してチャットを行い、モデル名を知らなくてもそれぞれの応答を比較することでLLMを評価するプラットフォームである。
BREAKING: @xAI early version of Grok-3 (codename "chocolate") is now #1 in Arena!
— lmarena.ai (formerly lmsys.org) (@lmarena_ai) February 18, 2025
Grok-3 is:
- First-ever model to break 1400 score!
- #1 across all categories, a milestone that keeps getting harder to achieve
Huge congratulations to @xAI on this milestone! View thread https://t.co/p8z8lccNd5 pic.twitter.com/hShGy8ZN1o
Grok 3の公式リリースに先立ち、初期バージョンのモデルが「chocolate」という名前でChatbot Arenaで実行され、Gemini、GPT-4o、DeepSeek-R1などと比較して全てのカテゴリーで1位を獲得した。また、Chatbot Arenaで1400点以上のスコアを記録した最初のモデルとなった。
エージェント機能への需要に応えるため、xAIはOpenAIやGoogleのディープリサーチ機能と同様の「DeepSearch」も立ち上げた。DeepSearchでは、ユーザーが質問をすると、Grokがそれを分析し、ウェブを検索し、思考のプロセスを随時アウトプットしながら、必要に応じてデータや表とともに最終的な回答を生成する。つまり、あるトピックの調査を依頼し、10分後に戻ってくると、その作業は完了しているというイメージだ。
特筆すべきは「Grokの思考を読み取る」ことができ、最終的な回答にたどり着くまでの過程を理解できることである。これにより、Grokの操縦性が向上し、結果をより深く理解できるようになる。

提供:Screenshot by Sabrina Ortiz/ZDNET
一部のGrokモデルがベータ版として利用可能になっている。Grok 3は有料プランの「X Premium+」で利用でき、最新機能や利用制限の増加、DeepSearchへのアクセス、「Think」または「Big Brain」オプションをクリックして高度な推論モードを利用できる。
TechCrunchが指摘するように、X Premium+のサブスクリプション料金は発表当時の22ドルから値上がりして月額40ドルとなった。
xAIはまた、最も先進的な機能にいち早くアクセスしたいヘビーユーザー向けに、「ChatGPT Pro」と似た新しいサブスクリプションプラン「SuperGrok」を発表した。同プランの料金はまだ発表されていないが、ChatGPT Proが月額200ドルであることから、かなりの金額になることが予想される。
最も洗練されたバージョンについて、Musk氏はユーザーに1週間待つよう勧めている。それまでには、新しい音声統合機能が展開できる状態になっている見込みだという。

提供:Getty Images / NurPhoto / Contributor
この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。