「Facebook」「Instagram」「WhatsApp」を所有するMetaが米国時間12月13日、2022年1月に発表した自己教師あり学習アルゴリズム「data2vec」の改良版「data2vec 2.0」を発表した。ジェネラリストのように機能して、テキスト、画像、および音声データを含むタスクに対して、基本的にすべて同じアプローチで取り組むというものだ。

提供:Baevski et al.
data2vec 2.0で、Metaの科学者らはプログラムを高速化した。さらに複数の事例では、機械学習タスクのベンチマークテストでより高い精度を記録している。
初代data2vecに関する論文の執筆者に含まれるAlexei Baevski氏とArun Babu氏、Wei-Ning Hsu氏、Michael Auli氏は、「arXiv」に投稿した新たな論文「Efficient Self-supervised Learning with Contextualized Target Representations for Vision, Speech and Language」の中で、「data2vec 2.0は、下流のタスクの精度を損なうことなく、自己教師あり学習の訓練速度を大幅に改善できることを示している」と述べた。
data2vec 2.0の目覚ましい成果は、訓練にかかる時間を短縮したことだ。ニューラルネットワークの訓練は通常、「エポック」という単位で測定される。エポックは、ニューラルネットワークに訓練用サンプルが与えられる回数を意味する。ニューラルネットワークの訓練は、開始から終了までの実時間でも測定される。
「実験では、data2vec 2.0が2倍~16倍の訓練速度で、多くの一般的な既存アルゴリズムと同じ精度に到達できることが明らかになっている」(同論文)
data2vecという名称は、Googleによって2013年に開発された「単語の埋め込み」プログラム「word2vec」をもじったものとみられる。word2vecは、特定の種類のデータ(この場合はテキスト)向けに設計されたニューラルネットワークだ。
一方、data2vecでは、Baevski氏らはGoogleのAshish Vaswani氏らが2017年に開発したニューラルネットワーク「Transformer」を採用し、複数の種類のデータに使えるよう拡張している。このニューラルネットワークでは、同じ構造で、画像、音声、テキストのすべてを訓練できる。データの種類に合わせて変更する必要がないので、ジェネラリストプログラムと言える。

data2vecにおける訓練の仕組み
提供:Baevski et al 2022
この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。