生成AIの台頭

「ChatGPT」を超える未来の生成AI--進化の鍵を握るマルチモダリティー

Tiernan Ray （Special to ZDNET.com）翻訳校正：川村インターナショナル

2023-10-25 07:30

　人工知能（AI）は、チェスでの勝利、タンパク質の折りたたみの予測、猫や犬のラベル付けなど、多くの成果によってメディアを賑わせてきたが、生成AIとして知られるAIほど世界の想像力を魅了したものはない。

　「ChatGPT」は1月、史上最速の成長を遂げたソフトウェアプログラムとなり、一般公開から2カ月足らずでユーザー数が1億人に達した。それを受けて、Googleの「Bard」などのプロプライエタリープログラムや、カリフォルニア大学バークレー校の「Koala」などのオープンソースプログラムなど、数多くの競合プログラムが登場した。興奮が高まる中、テクノロジー大手のMicrosoftとGoogle、その競合他社の間で開発競争が勃発し、AIチップメーカーNVIDIAの事業が急成長した。

大規模言語モデルをめぐる熱狂によって、テキスト専用のプロプライエタリープログラムとオープンソースプログラムが多数登場し、その規模が拡大している。上の図は、清華大学のXuena Wang氏と同僚らによる2023年の論文「Emotional Intelligence of Large Language Models」（大規模言語モデルの感情知能）に掲載されたもの。
提供：Tsinghua University

　これほどの熱狂が巻き起こっている状況の根底には、単純な事実がある。それは、過去のAIプログラムは主に数値スコアを生成していたが（猫の写真には「1」、犬の写真には「0」など）、それと違ってChatGPTや画像生成AI（Stability.aiの「Stable Diffusion」やOpenAIの「DALL•E」など）は、世界の何かを再現するということだ。

特集：生成AIの台頭

　こうしたプログラムは、段落、写真、さらにはコンピュータープログラムのスケルトンを出力することで、社会の創造物を再現している。

　この再現という側面が、ごく短期間のうちに劇的に強まっていくだろう。

　現在の生成プログラムは、2023年末の普及が見込まれるプログラムの能力と比較すると、原始的に思えるようになるだろう。その頃には、さらに多くの種類のデータを出力しているからだ。

複数のモダリティーへの移行

　プログラムがテキスト、画像、物理空間の「点群」、音声、動画、コンピューター機能全体をスマートアプリケーションとして融合していくにつれて、コンピューター科学者が混合モダリティー、あるいは「マルチモダリティー」と呼ぶものが中心になっていくだろう。

　混合モダリティーは、以前よりはるかに高性能なプログラムを可能にし、継続学習という長年の目標の達成に寄与する。ロボット工学と組み合わせることで、「身体性AI」という目標においても進展があるかもしれない。

　「ChatGPTは娯楽のために作られた。多くのことを非常にうまく実行するが、デモのようなものだ」。AIスタートアップMosaicMLの創設者であるNaveen Rao氏は、米ZDNETとのインタビューでこのように語った。「今、考えなければならないのは、何かの目的に使用する場合、どうすればもっと良いものにできるのか、という点だ」

　Rao氏が創設したMosaicMLは、AIプログラム運用の専門知識を評価されて、Databricksに買収された。同氏は現在、Databricksで生成AI担当バイスプレジデントを務めている。

　その改善の一環として、生成AIは単なる個人用「コパイロット」以上の存在になるだろう。たとえばMicrosoftの「GitHub Copilot」は、1人の個人のチャットプロンプト入力を支援するが、Stability.aiの創設者で最高経営責任者（CEO）を務めるEmad Mostaque氏は、生成AIが個人用ではなく、チーム向けの共同作業用プログラムになる、と米ZDNETとのインタビューで語った。

　「多くのAIは、単に1対1のやりとりに使用されるものか、自律型のエージェントだ」とMostaque氏。「現在は『iPhone』の2G段階のようなもので、単なるシングルモードであり、カット＆ペーストをするだけだ。一方、何より刺激的なのは、AIを使って共同作業をどのように改善し、より良い物語を伝えるか、ということだと思う。それは孤立した取り組みではない」

　DatabricksのRao氏は、「根本的に欠けている」ものの1つは「世界のマルチモーダル性だ」と述べ、その理由を「大規模言語モデルはテキストを通してのみ世界を認識するという点で非常に1次元的である」とした。

　モダリティーとは、テキスト、画像、動画のような入力と出力の性質を指す。さまざまなモダリティーが可能で、以前から検討されており、その多様性が増している。これは、ChatGPTを動かす基本概念と同じものをあらゆる種類の入力に適用できるからだ。

　「間違いなく、マルチモダリティーこそが目指すべき方向性だ」とMostaque氏は語る。「あらゆる種類のモデルが必要になるが、それらを組み合わせれば、素晴らしいことになる」

　「言語だけのものが大きな反響と興奮を呼んだため、メディアはそこに注目しているが、他のものに関する本格的な取り組みが進行中だ」。著名なコンピューターチップ設計者で、AIチップのスタートアップTenstorrentのCEOでもあるJim Keller氏は、米ZDNETとのインタビューでこう語った。Keller氏は、混合モダリティーの処理が今後のAIの大きな需要の1つになるという確信のもとで、Tenstorrentを経営している。

あらゆる種類のデータに対応できる機械

　ChatGPTの技術の根幹を成す大規模言語モデルでは、テキストがトークン、すなわち定量的な数学的表現に変換される。その後、機械はフレーズ全体の隠された部分、またはフレーズの後半部分から欠落しているものを見つけなければならない。ChatGPTが出力する段落を生み出すのは、再構築の作業だ。

より豊かな世界像

次ページ以降の閲覧はAsahi Interactive IDへのログインが必要です。
一度ログインし特別な設定をしない限りその後一定期間ログインせずに記事を閲覧することができます。
Asahi Interactive IDの登録は約1分程度で簡単に登録でき、最新情報をメールマガジンとして受け取ることもできます。

より豊かな世界像