AIチャットボットの能力を比較評価できる「Chatbot Arena」--ユーザーの判定を反映

Sabrina Ortiz （ZDNET.com）翻訳校正：編集部

2023-06-23 10:52

　生成型の人工知能（AI）を搭載したチャットボットサービスの「ChatGPT」が2022年11月に公開され、爆発的な人気を博して以来、類似サービスの投入が相次いでいる。これらのチャットボットは、利用している大規模言語モデル（LLM）や、価格、ユーザーインターフェース、インターネットへのアクセスといった点でさまざまであり、どれを使うか悩ましい状況だ。

提供：Olemedia/Getty Images

　これらのチャットボットを簡単に比較できるようにするべく、カリフォルニア大学バークレー校の学生と教授陣らが設立したオープンな研究組織Large Model Systems Organization（LMSYS Org）は「Chatbot Arena」（チャットボット競技場）を作り出した。

　Chatbot ArenaはLLMのベンチマークプラットフォームで、ユーザーはランダムに選択された2つのモデルに対してプロンプトを入力し、どのLLMが回答しているか明かされない状態で、どちらが優れているかを選択するようになっている。

　ユーザーが優れていると判断した方を選択すると、出力を生成するためにどのLLMが使われたかが表示される。

　LMSYS Orgによると、ユーザーが評価した結果は、チェスの公式記録で用いられているイロレーティング（Elo rating）システムに基づいて順位付けされ、リーダーボード（順位表）に反映される。

　筆者はChatbot Arenaを自ら試すべく、「何カ月も前から計画していた休暇を取得するため、しばらく職場を離れることを上司に伝える電子メールを書いてください」というプロンプトを入力した。

　返ってきた2つの回答は大きく異なるものだった。一方はこういった電子メールにふさわしい文脈と長さになっており、埋めるべき空欄も用意されていた。

提供：Screenshot by Sabrina Ortiz/ZDNET

　「モデルB」を勝者に選んだ後、それがMetaの「LLaMA」モデルをベースにしてLMSYS Orgが開発した「vicuna-7b」であることが分かった。そして敗者はNomic AIが「LLaMA 13B」に微調整を加えて開発した「GPT4All-13b-snoozy」だった。

　リーダーボードによると本記事執筆時点では、OpenAIの最新LLMである「GPT-4」が1227というArena Eloレーティングを獲得し、予想に違わず首位に立っている。2位は1178というレーティングを獲得した、Anthropicが開発した「Claude-v1」だ。

提供：LMSYS Org

　GPT-4は「Bing」のチャット機能と「ChatGPT Plus」の双方に搭載されており、両者は現時点で利用可能な最高のチャットボットと言えそうだ。また、この結果は米ZDNetが独自に評価したAIチャットボットのランキングとも一致している。

　2位にランクインしたAnthropicのClaude-v1は現時点では一般公開されていないが、先行アクセスのための順番待ちリストに登録できる。

この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。

ZDNET Japan 記事を毎朝メールでまとめ読み（登録無料）

メールマガジン登録のお申し込み

関連キーワード: 人工知能（AI）

AIチャットボットの能力を比較評価できる「Chatbot Arena」--ユーザーの判定を反映

関連記事

関連ホワイトペーパー

特集

CNET Japan Top Story

ホワイトペーパー

新着

ランキング

ZDNET Japan クイックポール

NEWSLETTERS