Elon Musk氏が設立したAI企業のxAIは米国時間8月13日、最新の大規模言語モデル(LLM)「Grok-2」の早期プレビューをリリースした。Grok-2の軽量版である「Grok-2 mini」も含まれる。
今回のリリースに先立ち、Grok-2の初期バージョンはLarge Model Systems Organization(LMSYS)のChatbot Arenaで匿名テスト(その際の名称は「sus-column-r」)が実施されていた。
LMSYSでは、ユーザーがLLMの名前を知ることなく、2つのLLMのチャット画面を並べてその応答を評価することができる。OpenAIの「GPT-4o」やGoogleの「Gemini 1.5 Pro」のようなLLMと比較した場合、Grok-2は「Overall(総合)」部門で3位、GPT-4oと同等という結果だった。
Woah, another exciting update from Chatbot Arena
— lmsys.org (@lmsysorg) August 14, 2024
The results for @xAI’s sus-column-r (Grok 2 early version) are now public**!
With over 12,000 community votes, sus-column-r has secured the #3 spot on the overall leaderboard, even matching GPT-4o! It excels in Coding (#2),… https://t.co/gqSWSwYN0z pic.twitter.com/j9UYDBYNt4
Chatbot ArenaのLeaderboardにアクセスしても同じ結果は表示されないが、LMSYSは「X」(旧Twitter)で初期の結果を投稿していることを明らかにしている。
その他の注目すべき結果としては、Grok-2の「Math(数学)」と「Coding(コーディング)」部門で2位、「Hard Prompts(ハードプロンプト)」では4位だった。Chatbot Arenaで実際にテストするには、ウェブサイトにアクセスして「Arena(side-by-side)」をクリックし、サンプルプロンプトを入力すればいい。
xAIはまた、「Massive Multitask Language Understanding(MMLU)」や「MATH」といったベンチマークでもGrok-2の性能を評価している。その結果は、前身の「Grok 1.5」よりも優れ、GPT-4o、「Claude 3 Opus」「Llama 3」などのLLMと対抗するものだったという。

※クリックすると拡大画像が見られます
Grok 2は、高度なテキスト生成に加え、Black Forest Labsの画像生成モデル「FLUX.1」との連携により、高品質な画像も生成することができる。
市場に出回っている多くの画像生成ツールは、有名人や政治家などの公人が登場する画像の作成に厳しい制限を設けているが、Grok-2にはそのような制限が設けられておらず、既に多くのベータテスターが下記のような政治家の画像を作成している。
oh wow thx grok, now i can finally have Baroque Obama pic.twitter.com/ZESsvmgOJa
— Blair Dulder CPA™(@runaway_vol) August 14, 2024
生成された画像は高品質でリアルだが、画像がAIによって生成されたことを明らかにするような情報開示はないようだ。
Grok-2とGrok-2 miniは、Xのプレミアムとプレミアムプラスのユーザーにベータ版として提供される。どちらのモデルも、8月末に新しいエンタープライズAPIプラットフォームを通じて開発者向けにリリースされる予定だ。

提供:SOPA Images / Contributor / Getty Images
この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。