高性能モデルも苦戦--計3000問の学術ベンチマーク「人類最後の試験」が登場

Radhika Rajkumar (ZDNET.com) 翻訳校正: 編集部

2025-01-30 07:00

 AIモデルは本当に人間の能力を上回っているのか。それとも、現在のテストが簡単すぎるだけなのだろうか。

 AIスタートアップ企業のScale AIは米国時間1月24日、非営利団体のCenter for AI Safety(CAIS)と共同で、「人間の専門知識の最前線におけるAIの知識の限界をテストする」ことを目的とした学術ベンチマーク「Humanity's Last Exam」(HLE:人類最後の試験)を発表したと同社のブログで説明した。同ベンチマークのテストは、数学、科学、人文科学など、100以上の科目に関する3000のテキスト/マルチモーダル問題で構成されており、さまざまな分野の専門家によって作成されたという。

 AnthropicでAPI技術部門の責任者を務めるMichael Gerstenhaber氏は2024年11月、Bloombergに対して、AIモデルは頻繁にベンチマークの基準を上回ると述べた。これは、新しいモデルがリリースされると、ベンチマークプラットフォーム「Chatbot Arena」の順位表が急速に変動する理由の一つだという。例えば、多くの大規模言語モデル(LLM)は現在、一般的に使用されるベンチマーク「Massive Multitask Language Understanding」(MMLU)で90%以上のスコアを獲得しており、ベンチマークの飽和とされている。

 一方Scale AIは、現在のモデルにおけるHLEベンチマークテストの正答率は10%未満だったとブログで報告している。

 Scale AIとCAISの研究者は、HLE向けに7万以上もの設問を収集し、1万3000に絞り込んだ。これらの問題は人間の専門家によって評価され、最終的に3000に絞り込まれた。テストでは、OpenAIの「OpenAI o1」や「GPT-4o」、Anthropicの「Claude 3.5 Sonnet」、Googleの「Gemini 1.5 Pro」などの高性能モデルを活用。MMLU、「MATH」「GPQA」といったほかのベンチマークでも並行して評価した。

一部の既存ベンチマークが飽和状態にあるのと比べて、HLEの精度は最先端モデルでも依然として低い。これは、高度で事実に基づいた形式の学術的能力を測定する上で、HLEの有効性を示しているという(提供:CAIS)
一部の既存ベンチマークが飽和状態にあるのと比べて、HLEの精度は最先端モデルでも依然として低い。これは、高度で事実に基づいた形式の学術的能力を測定する上で、HLEの有効性を示しているという(提供:CAIS)

 「2021年に難関の競技数学データセットであるMATHベンチマークをリリースした際、最も性能の高いモデルでも10%未満のスコアだった。わずか3年後に90%以上のスコアが達成されると予測した人はほとんどいなかった」とCAISの共同創設者でエグゼクティブディレクターのDan Hendrycks氏は述べた。「HLEでは、モデルが回答できない専門的な選択問題がまだ幾つかあることを示している。それがいつまで続くかを見てみよう」(同氏)

 Scale AIとCAISは、上位の質問を投稿した人々に賞金を授与した。上位50位までの投稿者にはそれぞれ5000ドル、その次の500位までの投稿者には500ドルが贈られた。両者は最終的な設問を公開しているが、別の問題群は非公開にしている。これは、モデルがデータセットに適応しすぎることで、新しいデータでは正確に予測できなくなる「モデルの過学習」を防ぐためだという。

 HLEの作成者は、テスト問題の提出を引き続き受け付けているが、賞金の授与はもう行わないと述べる。ただし、貢献者は共著の資格を得ることができる。

 Scale AIとCAISは、研究者たちが新しいAIシステムとその限界についてさらに研究できるよう、データセットの公開を予定している。全てのベンチマークとサンプル問題は、こちらから確認できる。

提供:PM Images/Getty Images
提供:PM Images/Getty Images

この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    Google Chrome Enterprise が実現するゼロトラスト セキュリティの最新実情

  2. ビジネスアプリケーション

    ITSMに取り組むすべての人へ、概要からツールによる実践まで解説、「ITSMクイックスタートガイド」

  3. ビジネスアプリケーション

    業務マニュアル作成の課題を一気に解決へ─AIが実現する確認と修正だけで完了する新たなアプローチ

  4. セキュリティ

    あなたの会社は大丈夫?--サイバー攻撃対策として必要な情報セキュリティの早分かりガイドブック

  5. セキュリティ

    いまさら聞けないPPAPの問題点、「脱PPAP」を実現する3つの手法と注目の"第4のアプローチ"とは

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]