NTTは、実世界のデータに潜む「巡回対称性」を利用することで、最適輸送問題をベースとした大規模データ間の類似度や対応関係を、高速および高精度に計算する技術を開発したと発表した。
NTT人間情報研究所 サイバネティックス研究プロジェクト ネオ・サイバネティックスグループ主任研究員の井上照久氏
NTT人間情報研究所 サイバネティックス研究プロジェクト 主任研究員の井上照久氏は、「最適輸送問題は、画像内の物体の比較や対応関係、波形信号の分離および合成、補間などに利用されているが、解くために多くの計算時間が要する課題があった。今回の新技術では、データの中にある巡回対称性を用いて、これまでのアルゴリズムと完全に同等な解を、高速に計算可能なことを理論と実験的に世界で初めて示すことができた。この解法を用いて大幅に計算コストを削減でき、最適輸送問題の根本的な課題を解決できる」と述べた。
※クリックすると拡大画像が見られます
最適輸送問題は、輸送コストが最小となるデータ間の最適な経路を求める問題で、例えば、「Aのデータの形からBのデータの形に移動させる場合に、総コストが最小になる動かし方」を求める。また、データ同士の類似度や対応関係を高精度に求めるといった用途でも広く活用されており、画像や音声、生成AIなどの分野にも応用されている。
最適輸送問題
例えば画像の場合、立っている瓶の画像と倒れている瓶の画像において、どれぐらいの距離があるのかを計算したとする。事前に学習した瓶の画像を素に最も距離が短い対応関係を導き出すことができる。この方法を用いることで、正面を向いて立っている人の画像から少し横に向いている画像へ変換するといったことできる。
また、複数の音源がある場合には、文章の類似度評価や対応関係を最適輸送問題で分析し、文章検索に利用したり、英語から別の言語に変換して音声合成で発話したりといったことが可能になる。さらに、音楽を基に楽譜を起こす自動採譜に活用したり、ロボットの最適な行動のモデリングにも利用されたりしている例もある。
生成AIにおいても最適輸送問題は活用されており、蓄積した過去の類似データを用い、入力したプロンプトに対して、それに近い画像や文章を生成するといった技術で活用されている。
一方の巡回対称性とは、回転や反転などの変換を適用しても、その構造が変わらない性質のことを指し、歯車や雪の結晶などが完全な巡回対称性を持つものに位置付けられている。
今回の技術では、入力データの巡回対称性に着目した。最適輸送問題を各対称成分の変数ごとに分割して考え、そこから、さらに全対称成分を縮約する新しい補助変数を導入することで、非常に少数の変数で構成された最適化問題に帰着させることができるのが特徴だ。
井上氏は、「2つの画像の類似度を分析する際に、16のブロックに分割して、それぞれどこに違いがあるかを計算しなくてはならなかった。今回の技術では、画像を回転させても構造が変わらないという巡回対称性を利用し、16のブロックを1つのブロックに縮約し、1つの問題として解決する。それを元の問題に復元することで、従来のアルゴリズムと比較しても同じ解を出しながら高速に問題を解くことができ、計算機コストも削減できる」と説明する。
従来のアルゴリズムが最適輸送問題を直接解くのに対して、今回の技術では、最適輸送問題を別の小さな最適化問題に帰着させ、それを代わりに解き、元の最適輸送問題の解を復元して、問題の帰着および解を復元するという2つの処理が必要になる。だが、それを加味しても高速に解を求めることが検証されたとしている。
実験では、50次の巡回対称性を持つ1000次元のデータ間の最適輸送問題を解いた場合、従来の方法では約33秒かかっていたものが、新たな解法では約0.3秒に大幅に短縮されたという。ここでは、人工的に作成した完璧な巡回対称性を持つデータ同士によるシミュレーションと、実際の画像や化学物質構造などを使って従来方法と新たな方法を比較したシミュレーションを実施した結果、従来方法と同じ結果を出力しながら、大幅な高速化と、それに伴うコスト削減が可能になったことを証明した。
また、既存アルゴリズムの完全上位互換の技術となっており、画像にノイズが入っていたり、対象の軸がずれていたりして完全な巡回対称性を持たない画像の場合でも、画像の中に巡回対称性を見つけて計算することができるという。
NTT人間情報研究所 サイバネティックス研究プロジェクト ネオ・サイバネティックスグループ 准特別研究員の武田翔一郎氏は、「巡回対称性は、幅広い範囲に適用できるものだと考えている。仮に巡回対称性が画像に見つからない場合には、既存アルゴリズムを使って解くことができ、使用上の問題はない」と述べる。
NTT人間情報研究所 サイバネティックス研究プロジェクト ネオ・サイバネティックスグループ 准特別研究員の武田翔一郎氏
今回の技術は、NTT人間情報研究所サイバネティックス研究プロジェクトが取り組んでいる「視覚環世界誇張表現技術」の研究において重要な役割を果たすという。この技術は、人の能力拡張を目指し、熟練者やAIの優れた視覚認知力の伝承により、人々の視覚認知能力の向上に貢献するもので、「熟練者や職人が見ると、初心者には分からないささいな違いが判明したり、医師のような専門職が見れば異常を検知したりできるといったような優れた視覚認知を検証し、それを活用することで、人々の視覚認知能力の革新的向上をもたらす研究になる」(井上氏)という。
この技術を用いた誇張表現によって、初心者でも熟練者などと同様に、「違い」に気が付けるようになるという。「Video Magnification」は、それを実現する一つであり、カメラ映像からささいな色の変化や運動変化を解析して抽出、強調および可視化することで、初心者でも「違い」を理解できるようにする。例えば、人が歩いている映像から異常のある歩き方を検出して可視化するといった使い方や、医療現場での作業支援、エンターテイメント分野での利用などが想定されている。
視覚環世界誇張表現技術の創出には、実世界の大規模なデータ間の変化や違いを高精度に、高速に検出する基礎技術が必要となる。NTTは、今回発表した大規模データ間の類似度や対応関係を高速、高精度に算出する技術が、視覚環世界誇張表現技術の創出に向けた基礎技術になると位置付けている。
なお、今回発表した技術は、2024年2月20日~27日にカナダ・バンクーバーで開催されたAIに関する国際会議「The 38th Annual AAAI Conference on Artificial Intelligence」において内容を認められ、採録されたという。