騒々しい環境下で1人の話者の声だけを抽出できる「ディープラーニング(深層学習)型オーディオビジュアルモデル」をGoogleの研究者らが開発した。
大勢の人が話している中で、余計な音はすべてカットして1人の声だけに集中して聞き分けられる現象は「カクテルパーティ効果」と呼ばれ、人間には簡単でも機械にとっては難しい。
このことは、Googleのスマートグラス「Google Glass」で、筆者が個人的にいつか開発してほしいと願っている利用方法の実現の妨げとなっている。その利用方法とは、補聴器の利用者を支援してくれるリアルタイムな音声認識および即時トランスクリプション(文字起こし)システムだ。
補聴器の利用者にとって人の話を聞くのがいちばん困難な人混みの中で、どうやって聞きたい声だけを抽出し、すぐに文字化するかについて疑問を抱くまで、筆者はGoogle Glassを使うという自分のアイデアが素晴らしい切り札だと考えていた。
音声の分離はどうやらかなり難しいようだが、筆者がGoogle Glassに託した期待に対して、さまざまな音が混ざりあった中から特定の音声を抽出できる深層学習型オーディオビジュアルモデルという形で、Googleの人工知能(AI)研究者たちは答えの一端を掴んだかもしれない。
研究者たちが公開したのは、横に並んだ2人の人間が同時にペチャクチャと話している動画だ。この技術は、まだ現実世界の人混みの中で実証されていないが、2人の話者の音声を1つのオーディオトラックに記録した動画では、うまく音声を分離できている。
加えて、騒がしいカフェの背景音を消去して1人の話者の声だけを抽出する動画も公開しており、Google Glassはさておき、この技術を利用すれば補聴器利用者により明瞭な音声を届けられるだろう。
「ユーザーは、動画の中で聞き取りたいと思う人物の顔を選択するか、コンテキストに基づいてその人物をアルゴリズム的に選ばせるだけでいい」とGoogle ResearchのInbar Mosseri氏とOran Lang氏は記している。
研究者らは論文の中でGoogle Glassについてまったく触れていないが、この技術は特に複数の話者がいる状況で補聴器を着けている人の役に立つ可能性があると述べている。また、ビデオ会議や、動画に含まれる音声の音質改善や認識にも役立つかもしれない。
Google Glassの視覚化補聴器機能はまだ先のことだろうが、Googleがこの技術を音声認識や動画の字幕作成に応用するのなら、視覚化補聴器も可能になるとの希望を与えてくれる。
Google Research Blogに掲載されたYouTube動画で字幕をオンにすることにより、音声分離技術の効果を確認することができる。
音声分離技術のカギを握るのは、ビジュアルキュー(視覚的な合図)の利用だ。こうした視覚的な合図には話し手の口の動きなどがあり、これを話し手から発せられる音と相互に関連付けて、声の持ち主による音声を識別する。
「われわれの論文で示しているように、視覚信号は音声だけを使用した音声分離と比べて、さまざまな音声が混ざりあっている場合に音声分離の品質を大幅に改善するだけでなく、重要なことに、分離されたクリーンな音声トラックを動画に登場する話し手と関連付ける」(Google)
音声分離モデルを作成するため、研究者らは話者の顔が見える数千時間分のYouTube動画クリップを利用して「人為的なカクテルパーティ状態」を作り出し、これがニューラルネットワークのトレーニングデータになった。
研究者らは、この技術にはさまざまな応用法があると考えており、現在はGoogle製品のどこに組み込めるかを模索している。
提供:Google
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。