人工知能(AI)を搭載した基盤を提供するAppierは1月20日、AI活用に関する2020年の総括と2021年以降の予測について、説明会を開催した。同社のチーフAIサイエンティストに加え、台湾国立清華大学の准教授も務めるMin Sun氏が登壇した。
2020年は新型コロナウイルス感染症の影響で、従来の5倍のスピードでDX(デジタル変革)が進んだという。Sun氏は「さまざまな分野でデジタル化が加速したことから、2021年は全ての企業が自社をIT企業として捉えるべき。テクノロジーを活用し、より多くのデータを収集し、AIを戦略的に使うことが重要である」と語った。
同氏はまず、2020年におけるAIの進化を3つ紹介した。
1つ目は画像認識。2012年、数百万枚もの画像をニューラルネットワークに学習させることで、人間の力を上回る画像認識が実現した。だがボトルネックとして、ラベル付きの画像を数百万枚も用意しなければならないということがあった。そこで2020年、研究者はシンプルな教師なしメソッド「SimCLR」を提案。このメソッドのもと、膨大なラベルなし画像を学習させたところ、 従来の方法とほぼ同じ精度だったという。
SimCLRでは、画像を自動で補強する「オートオーギュメンテーション」という技術が用いられている。例えば、さまざまな犬の画像の中でAIには全身が見えなくても、頭と足の画像から「これは犬である」と推測できるようになった(図1参照)。この技術により、ローデータを収集すれば、AIは自動で学習することが可能になるという。
※クリックすると拡大画像が見られます
2つ目は自然言語処理。2~3年前、言語モデルはかなり高いレベルで自己学習できると分かった。そして2020年、研究者はより大規模な言語モデル「GPT-3」を発表した。訓練にかかるコストは、500~1000万ドルに上ると言われている。GPT-3は言語モデルとして初めて1000億個を超えるパラメーターを用いており、言語の理解/生成という分野において他のモデルを大きく上回っている(図2参照)。
※クリックすると拡大画像が見られます
3つ目はタンパク質フォールディング。他の分野とはかけ離れているように見えるが、タンパク質フォールディングで活用されている技術は、自然言語処理で使われているものと非常に似ているという(図3参照)。タンパク質フォールディングはアミノ酸の配列を提供し、その配列からタンパク質の形状を立体的に予測することができる。
左側にあるのは、特に重要とされるアミノ酸20個。これらに文字を当てはめて順番に並べていくと、言語と同じような意味をなす。形状が立体的に分かることで、プロテインの機能を数値化することが可能になる。これは、創薬のスピードアップや病気の理解につながると期待される。
※クリックすると拡大画像が見られます