複数のデータ種類を処理できるニューラルネットワーク(NN)、つまりどのような型のデータであっても、同じ基本構造ですべてを処理できる、より汎用的な人工知能(AI)の開発競争が始まっている。
NNにおけるマルチモダリティーと呼ばれるこうした分野では現在、画像やテキスト、音声といったさまざまなデータを同一のアルゴリズムで処理し、画像認識や自然言語理解、音声検出といった種々の観点から評価するという取り組みが活発に進められている。
そしてこうした汎用ネットワークはAIのベンチマークテストで高いスコアをたたき出している。その最新の成果が、Meta Platforms(「Facebook」や「Instagram」「WhatsApp」を擁する旧称Facebook)のAI部門のリサーチャーらによって開発された「data2vec」だ。
MetaのリサーチャーであるAlexei Baevski氏とWei-Ning Hsu氏、Qiantong Xu氏、Arun Babu氏、Jiatao Gu氏、Michael Auli氏が同社ブログに記しているように、ここで重要なのは、人間が備えているような汎用の学習能力に近づけていくことだ。
同ブログには「人間は、どのように情報を得るかにかかわらず、例えば目からか、あるいは耳からかにかかわらず、いずれも似たような方法で学習する一方、自己教師あり学習アルゴリズムが画像や音声、テキストといったモダリティーから学習する方法は、現在のところそれぞれ大きく異なっている」と記されている。
ここでの大事なポイントは、「AIは、まったく精通していない分野のものも含めて数多くのさまざまなタスクをこなせるようになるための学習能力を身に付けなければならない」ということだ。
Metaの最高経営責任者(CEO)Mark Zuckerberg氏はこの取り組みと、将来のメタバースとの関連について以下のように述べている。
人間は視覚や聴覚、言葉を組み合わせることで世界を見聞し、知識を身に付けている。このようなシステムを作れば、いつの日にかそれは人間と同じ方法で世界を理解できるようになるだろう。そしてすべては最終的に、AIアシスタントとともに拡張現実(AR)メガネに組み込まれるようになる。このため例えば、ユーザーが夕食の調理中に材料を入れ忘れた場合にそれに気付いたり、火を弱めるよう促したり、あるいはより複雑な作業を支援できるようになる。
data2vecという名称は、Googleによって2013年に開発された「単語の埋め込み」プログラム「word2vec」をもじったものだ。word2vecは、単語のまとまりがどのように結合されるのかを予測する、つまりテキストというデータの型でNNを表現するためのプログラムだ。
一方data2vecは、GoogleのAshish Vaswani氏とその同僚らが2017年に開発した「Transformer」と呼ばれる標準的なNNモデルを基にして、複数のデータ型で使用できるようにBaevski氏らが拡張したものだ。