人間に代わってタスクを実行するAIエージェントは、特に企業において生産性を向上させる大きな可能性を秘めており、その価値は明らかである。しかし、基盤となる大規模言語モデル(LLM)の性能には課題があり、これがAIエージェントの実用化を妨げる要因となっている。SalesforceのAI Research部門は、この問題の解決に取り組んでいる。
Salesforceは米国時間5月1日、報告書「Salesforce AI Research in Review」を発表した。この報告書では、過去四半期における新たな基盤技術の開発や研究論文など、同社の最新のイノベーションが紹介されている。同社は、これらの成果を通じて、ビジネス環境で安定して高いパフォーマンスを発揮できる、信頼性と能力を兼ね備えたAIエージェントの開発を加速させたい考えだ。
Salesforceのチーフサイエンティスト 兼 AIリサーチ責任者であるSilvio Savarese氏は、次のように述べている。「Salesforceでは、これらの成果を『退屈なブレークスルー』と呼んでいる。これは、決して注目に値しないという意味ではない。むしろ、表立っては目立たないものの、着実に能力を発揮し、確実な拡張性を持ち、持続的に利用できるよう設計されているからだ」。さらに、「これらの技術は非常にシームレスに機能するため、人によっては当たり前のことのように感じられるかもしれない」と付け加えた。
ここでは、報告書で取り上げられている主要なブレークスルーと重要なポイントを幾つか紹介する。
日常的な単純なタスクでAIモデルを使ってみると、驚くほど基本的な間違いをすることがある。さらに不思議なことに、そうした簡単な質問で間違えるモデルが、数学や科学技術(STEM)、コーディングといった非常に複雑な分野の能力を測るベンチマークテストでは、極めて高い性能を示すことがある。Salesforceは、この矛盾した現象を「不均一な知能(jagged intelligence)」と呼んでいる。
Salesforceは、この知能の「不均一」、すなわちLLMが持つ未加工な知能と、実際の状況における一貫したパフォーマンスとの間に存在するギャップが、企業にとって深刻な課題だと指摘する。特に、予測困難な状況下で安定した運用性能が求められるビジネスシーンでは、この問題は無視できない。しかし、この問題に取り組むためには、まずその度合いを定量的に把握する必要があり、ここにまた別の難しさがある。
SalesforceのシニアAIリサーチマネージャーであるShelby Heinecke氏は、「現在のAIは知能が不均一であるため、対策が必要になる。しかし、まずその問題を測定できなければ、どうやって対策を講じることができるだろうか」と問いかける。
この課題に対応するのが、Salesforceが新たに開発した「SIMPLE」ベンチマークである。
この公開データセット「SIMPLE」には、人間にとっては容易に答えられるものの、LLMの不均一な知能ゆえにAIにとっては評価や定量化が難しい、225の推論問題が含まれている。これらの問題がいかに基本的なレベルかを理解するために補足すると、Hugging Face上のデータセットの説明には、「高校生の少なくとも10%が、ペンと紙(枚数無制限)を使い、1時間以内に解ける」と記されている。
SIMPLEベンチマークは、極端に複雑なタスクを評価するものではない。しかし、AIモデルが実世界の状況や環境において、どのように推論能力を発揮するかを理解する上で役立つ。これは特に、ビジネス用途での汎用(はんよう)知能(EGI: Enterprise General Intelligence)を開発する際に重要となる。EGIのような高性能なAIシステムは、ビジネスアプリケーションを確実に処理することが期待されるためである。
このベンチマークにはもう一つ利点がある。それは、AIモデルのパフォーマンスの一貫性について、より明確な指標が得られるため、ビジネスリーダーがAIエージェントのようなシステムを自社の業務に導入する際の信頼感を高めることができる点である。
Salesforceが開発したもう一つのベンチマークが「ContextualJudgeBench」である。これは、評価対象のAIモデルそのものではなく、「評価を行うAI」を評価するという、ユニークなアプローチを採用している。AIモデルの性能評価では、しばしば他のAIモデルが評価者として用いられる。ContextualJudgeBenchは、この「評価者AI(LLM)」の信頼性を検証することに焦点を当てている。評価者AIが信頼できれば、その評価結果も信頼できるという考えに基づいている。このベンチマークでは、2000以上の応答ペアを用いてテストが行われる。
さらにSalesforceは、過去四半期にAIエージェント向けのベンチマークフレームワーク「CRMArena」も立ち上げた。このフレームワークは、AIエージェントが顧客関係管理(CRM)に関連するタスクをどの程度うまく実行できるかを評価する。例えば、営業メールや会議の議事録の要約、電子商取引(EC)における推奨商品の作成といったタスクが評価対象となる。
Savarese氏は、「これらのAIエージェントに求められるのは、数学の定理を証明したり、書いた文章をシェークスピア風の詩に変えたりすることではない。そうではなく、多様な業種における企業の重要なニーズに、的確に応える能力が求められている」と述べている。
CRMArenaは、企業がAIモデルを導入する際に、「実際の業務でどの程度役立つのか」という点を具体的に把握できるようにすることを目的としている。単なる包括的なテストにとどまらず、このフレームワークはAIエージェントの開発促進やパフォーマンス改善にも貢献することが期待される。
報告書には、AIモデルの効率性と信頼性を向上させるための、さらに多くの研究成果が含まれている。ここでは、その中から幾つかのハイライトを簡潔に紹介する。
- SFR-Embedding:テキスト情報をAIシステム(エージェントなど)が利用しやすい構造化データに変換するモデル群。このモデルを強化し、さらにコード処理に特化した「SFR-Embedding-Code」ファミリーも追加
- SFR-Guard:AIエージェントのパフォーマンスを、有害コンテンツの検出やプロンプトインジェクション耐性といった、ビジネス上重要な側面から評価するために訓練されたモデルファミリー
- xLAM(Large Action Model):複数回のやりとり(マルチターン会話)への対応能力やアクセシビリティーを向上させた、より広範な小型モデル群でxLAMファミリーを更新
- TACO:複雑で段階的な問題解決のために、「思考と行動の連鎖(Chain of Thought and Action、CoTA)」を生成する能力を持つマルチモーダルモデルファミリー

提供:Getty Images / picture alliance / Contributor
この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。