アップル、自社開発の対話型AIシステム「ReALM」に関する論文を発表

Maria Diaz （ZDNET.com）翻訳校正：佐藤卓吉武稔夫（ガリレオ）

2024-04-03 10:20

　Appleが2024年のWorldwide Developers Conference（WWDC）に向けてさまざまな人工知能（AI）機能を発表すべく取り組んでいるのは周知の事実だが、何が発表されるのかはまだ分かっていない。「Siri」の強化はAppleの最優先事項の1つだが、それは「iPhone」ユーザーがこの音声アシスタントへの不満をしきりに述べているからだ。そんな中、AppleのAI研究チームが米国時間3月29日に発表した論文は、Siriに関する同社のAI計画、そしておそらく、WWDCで発表される機能に関する新たなヒントとなるかもしれない。

　この論文で紹介されているのは、「Reference Resolution As Language Modeling」（ReALM）と呼ばれる対話型AIシステムで、今までにないアプローチで照応解析を改善するという。ReALMでは、会話の文脈を理解し、画面上のコンテンツを処理し、周囲の状況を検知するSiriの能力の改善が期待されている。

　照応解析を言語モデリングの問題として扱うというアプローチは、会話の文脈に焦点を当てた従来の手法とは一線を画すものだ。ReALMは、会話の中身、画面上の内容、およびバックグラウンドのプロセスを、大規模言語モデル（LLM）で処理できるテキストの形式に変換し、LLMの意味理解能力を活用する。

　研究チームはReALMモデルを、OpenAIが無料の「ChatGPT」や有料の「ChatGPT Plus」に搭載しているLLMの「GPT-3.5」および「GPT-4」と比較評価した。論文によれば、チームが構築した最小のモデルのパフォーマンスはGPT-4に匹敵し、最大のモデルのパフォーマンスはGPT-4を大きく上回ったという。

　「最小のモデルが画面上の照応に対して5％以上の絶対利得を有するなど、さまざまな種類の照応に対し、類似の機能を持つ既存のシステムと比べて大きな改善が見られることを実証する」と、研究チームは論文の中で述べている。「また、GPT-3.5およびGPT-4との比較評価も実施したところ、最小のモデルが達成したパフォーマンスはGPT-4に匹敵し、大規模なモデルはGPT-4を大きく上回っていた」とも述べている。

　この論文では、「ReALM-80M」「ReALM-250M」「ReALM-1B」「ReALM-3B」という4種類のサイズのReALMモデルを扱っている。末尾の「M」と「B」は、パラメーター数をそれぞれ100万（Million）単位および10億（Billion）単位で示したものだ。なお、GPT-3.5のパラメーター数は1750億、GPT-4に至ってはおよそ1兆5000億だと言われている。

　「我々が示したように、ReALMのパフォーマンスはこれまでのアプローチを上回っており、パラメーターの数がはるかに少ないにもかかわらず、今日の最先端のLLMであるGPT-4にほぼ匹敵している」と、この論文は主張している。

　ただし、今回の研究が「iOS 18」や最新デバイスにおいて何らかの役割を果たすのか、Appleは今のところ明らかにしていない。