富士通は、顔などの情報が写っていない映像からでも人の歩き方(歩容)を基に人物を高精度に照合できる歩容照合技術を開発した。
同技術では、人の関節点の座標から姿勢を推定する汎用深層学習モデルと、汎用的に照合可能な空間への変換により人物を照合しやすくする同社の独自技術を組み合わせる。これによりカメラ映像における人の映り込む位置の違いなどで照合精度が低下してしまう課題を解決し、顔などの情報を必要とすることなく高精度に人物を照合可能とした。
なお、汎用的に照合可能な空間とは、人の関節点座標について、映像中の人のサイズや位置などの差異による影響を取り除いた、データの特徴が正規化された座標空間のことを指す。
この技術の開発に当たり、同社事業所で約1700人を対象に撮影したカメラ映像から作成した大規模データセットを、学習済みの汎用深層学習モデルを用いて照合した。その結果、これまでの技術では50%未満の精度だったが、今回開発した技術では約90%の高い精度で人物を照合できたという。
開発した技術による人物照合イメージ
同技術は、事前に取得した人物映像から得られる歩容情報の登録時と、新たに用意した人物映像を入力する照合時の2段階で構成される。
登録時は、まず同社の人工知能(AI)技術「行動分析技術 Actlyzer」の姿勢推定技術を用いて、人の関節点の移動における時系列情報を抽出する。得られた関節点の時系列情報は人のサイズや歩く位置などの条件がさまざまであることから、それらをサイズや位置によらず汎用的に照合可能な空間に投影して関節点情報を変換する。その後変換された時系列の関節点情報から、カメラ映像内の人物特有の歩容の情報である歩容特徴量を抽出し、歩容特徴量データベースに登録する。
照合時には、新たに入力された人物映像に対して、登録時と同様に、汎用的に照合可能な空間に投影して変換された関節点情報から歩容特徴量を抽出する。その後あらかじめ登録した人物映像の歩容特徴量と、新たに入力された人物映像の歩容特徴量との類似度を比較することで人物を照合する。
今後、従来は人手で行っていた映像の解析作業を大幅に効率化するためにさまざまな場面での実証に取り組み、2023年度の実用化を目指す。同技術を用いて、例えば迷子や高齢者の捜索などに役立てる。過去に保護者や家族がスマートフォンなどで撮影した対象者の歩容が分かる映像を基に、駅や空港、商業施設、公共機関などの場所に設置されたカメラ映像から歩容の類似度が高い人物をAIが高精度に特定する。