生成型の人工知能(AI)を搭載したチャットボットサービスの「ChatGPT」が2022年11月に公開され、爆発的な人気を博して以来、類似サービスの投入が相次いでいる。これらのチャットボットは、利用している大規模言語モデル(LLM)や、価格、ユーザーインターフェース、インターネットへのアクセスといった点でさまざまであり、どれを使うか悩ましい状況だ。
提供:Olemedia/Getty Images
これらのチャットボットを簡単に比較できるようにするべく、カリフォルニア大学バークレー校の学生と教授陣らが設立したオープンな研究組織Large Model Systems Organization(LMSYS Org)は「Chatbot Arena」(チャットボット競技場)を作り出した。
Chatbot ArenaはLLMのベンチマークプラットフォームで、ユーザーはランダムに選択された2つのモデルに対してプロンプトを入力し、どのLLMが回答しているか明かされない状態で、どちらが優れているかを選択するようになっている。
ユーザーが優れていると判断した方を選択すると、出力を生成するためにどのLLMが使われたかが表示される。
LMSYS Orgによると、ユーザーが評価した結果は、チェスの公式記録で用いられているイロレーティング(Elo rating)システムに基づいて順位付けされ、リーダーボード(順位表)に反映される。
筆者はChatbot Arenaを自ら試すべく、「何カ月も前から計画していた休暇を取得するため、しばらく職場を離れることを上司に伝える電子メールを書いてください」というプロンプトを入力した。
返ってきた2つの回答は大きく異なるものだった。一方はこういった電子メールにふさわしい文脈と長さになっており、埋めるべき空欄も用意されていた。
提供:Screenshot by Sabrina Ortiz/ZDNET
「モデルB」を勝者に選んだ後、それがMetaの「LLaMA」モデルをベースにしてLMSYS Orgが開発した「vicuna-7b」であることが分かった。そして敗者はNomic AIが「LLaMA 13B」に微調整を加えて開発した「GPT4All-13b-snoozy」だった。
リーダーボードによると本記事執筆時点では、OpenAIの最新LLMである「GPT-4」が1227というArena Eloレーティングを獲得し、予想に違わず首位に立っている。2位は1178というレーティングを獲得した、Anthropicが開発した「Claude-v1」だ。
提供:LMSYS Org
GPT-4は「Bing」のチャット機能と「ChatGPT Plus」の双方に搭載されており、両者は現時点で利用可能な最高のチャットボットと言えそうだ。また、この結果は米ZDNetが独自に評価したAIチャットボットのランキングとも一致している。
2位にランクインしたAnthropicのClaude-v1は現時点では一般公開されていないが、先行アクセスのための順番待ちリストに登録できる。
この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。