富士通研究所、AIによる映像特徴量の高圧縮技術を開発

NO BUDGET

2020-11-18 11:05

　富士通研究所は、超高圧縮した映像データからでも高精度に映像の内容を認識できる映像圧縮技術を開発した。

　この技術は、同社が独自開発した高次元データ解析技術「DeepTwin」を深層特徴量の圧縮に応用している。画像認識精度を低下させることなく、映像圧縮の国際標準規格であるH.265による映像圧縮とAI（人工知能）を組み合わせた一般的な方式と比較して、100倍以上の圧縮率を達成可能としている。

特徴量復元のための学習方法（青）と、本技術によるオートエンコーダの学習方法（赤）

圧縮前後の特徴量の情報量の特性

　今回の映像圧縮技術は、AI認識に必要な最小限のデータ量まで圧縮する。DeepTwinのオートエンコーダーは、データの評価尺度を定めると、その評価尺度の値を保ったままデータの情報量が最小となるよう次元圧縮できることが理論的に保証されている。オートエンコーダーとはニューラルネットワークの一種で、入力と出力が同じになるようにニューラルネットワークを学習させることで次元圧縮を行う手法だ。

　今回は、この評価尺度を一般的な特徴量圧縮手法が注目する圧縮前後の特徴量の復元誤差ではなく、画像認識AIの認識率として定めた。これにより、認識率に必要な次元以外が削減されるようにオートエンコーダーが学習され、認識率を維持したまま従来の画像ベース方式を大きく超える深層特徴量圧縮性能が可能となった。

　また、DeepTwinで圧縮された後の特徴量が持つ情報量を調べると、一部に大きく偏った分布となる。これは、圧縮後の特徴量では一部に必要な情報が凝縮されていることを意味している。そのため、圧縮後の特徴量のうち、情報量が低く、認識率への影響が小さいデータから段階的に削減するように加工すれば、必要な認識率に応じてデータ量を制御することができる。

画像認識AIモデルとしてVGG16を用いた場合のH.265と本技術の圧縮性能の比較

　今回の技術を用いることで、AIによる画像認識性能の劣化を一定に抑えながら、従来方式を大きく超える高圧縮を行える。具体的には、AI認識モデルの一種であるVGG16を用い、映っている物体を汎用的な用途として100カテゴリーに分類するタスクに対して本技術を適用した場合、非圧縮の認識率から5％劣化する時のH.265を用いた画像ベースの方法と比較して100倍の圧縮性能を達成できた。

　また、例えば自動車やトラック、オートバイといった車両の分類など特定用途を想定して20カテゴリに分類する場合には、300倍の圧縮性能となり、いずれの認識劣化量の場合においてもH.265ベースの方式と比較して高い圧縮性能を達成できた。