新しいAIモデルが発表される際には、その性能を示すベンチマーク結果が公表される。しかし、これらのベンチマークで評価されるタスクは、小学校レベルの算数(GSM8K)や大学院レベルの推論(GPQA)といった一般的なものが多く、特定の業界に特化したものではないという側面がある。
このギャップを埋めるべく、OpenAIは「OpenAI Pioneers Program」を開始した。同プログラムは、特定の業界や実世界のユースケースに合わせたAIモデルの開発を推進することを目的としている。具体的には、企業がOpenAIの研究者と協力し、よりドメイン固有の評価基準や、ファインチューニングされたモデルを開発していく取り組みである。
we're launching the openai pioneers program – a partnership between openai and companies building advanced ai products to (a) intensively fine-tune models that outperform at high value domain-specific tasks, and (b) build better real world evals that enable industries to better… https://t.co/cCvkGmYqJd
— Brad Lightcap (@bradlightcap) April 9, 2025
OpenAIはブログ投稿で、「法律、金融、保険、ヘルスケア、会計など多くの業界では、モデルのベンチマークのための統一された信頼できる情報源が不足している」と指摘している。そのため、OpenAIは今後、各業界の複数の企業と協力し、これらの評価基準を開発していく計画である。この取り組みは、単にモデル開発を進めるだけでなく、社会全体とAIシステムとの間の信頼関係をより良く構築することも目指しているのである。
実際、このような業界特化ベンチマークの欠如が、ビジネス用途におけるAI導入の大きな障壁となっていることは、研究によっても指摘されている。例えば、Salesforce AI Researchの責任者であるSilvio Savarese氏は、「Enterprise General Intelligence(EGI)」に関するブログ投稿を発表した。EGIとは、同氏が提唱する概念であり、企業のドメイン固有のニーズに合わせて調整された、より高度なAIソリューションを指す。同氏は米ZDNETに対して、EGIを実現するための重要なステップの一つとして、ドメイン固有の機能を評価することに焦点を当てたベンチマークの必要性を語っている。
評価基準の開発に加えて、OpenAIは、強化学習ファインチューニング(RFT)として知られる技術を用い、チームと協力して3つの業界特有のユースケース向けに既存モデルを改良することも予定している。OpenAIのチームは参加企業にRFTの使用方法に関するガイダンスを提供し、その後、企業側がモデルの展開方法を決定できる。OpenAIによれば、これらのモデルは大規模な展開にも対応可能となる見込みである。
最初の参加企業グループは少数のスタートアップで構成される予定。「現実世界に影響を与える」ような活用事例に取り組むという。これらの基準に合致する企業は、OpenAI Pioneers Programのウェブページにあるフォームに基本情報を記入して応募できる。

提供:Getty Images/NurPhoto/Contributor
この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。