グーグル、AIで「群衆の中から特定の声を抽出する技術」を開発

Liam Tung (Special to ZDNet.com) 翻訳校正: 中村智恵子 吉武稔夫 湯本牧子 (ガリレオ) 2018年04月16日 13時24分

  • このエントリーをはてなブックマークに追加

 騒々しい環境下で1人の話者の声だけを抽出できる「ディープラーニング(深層学習)型オーディオビジュアルモデル」をGoogleの研究者らが開発した。

 大勢の人が話している中で、余計な音はすべてカットして1人の声だけに集中して聞き分けられる現象は「カクテルパーティ効果」と呼ばれ、人間には簡単でも機械にとっては難しい。

 このことは、Googleのスマートグラス「Google Glass」で、筆者が個人的にいつか開発してほしいと願っている利用方法の実現の妨げとなっている。その利用方法とは、補聴器の利用者を支援してくれるリアルタイムな音声認識および即時トランスクリプション(文字起こし)システムだ。

 補聴器の利用者にとって人の話を聞くのがいちばん困難な人混みの中で、どうやって聞きたい声だけを抽出し、すぐに文字化するかについて疑問を抱くまで、筆者はGoogle Glassを使うという自分のアイデアが素晴らしい切り札だと考えていた。

 音声の分離はどうやらかなり難しいようだが、筆者がGoogle Glassに託した期待に対して、さまざまな音が混ざりあった中から特定の音声を抽出できる深層学習型オーディオビジュアルモデルという形で、Googleの人工知能(AI)研究者たちは答えの一端を掴んだかもしれない。

 研究者たちが公開したのは、横に並んだ2人の人間が同時にペチャクチャと話している動画だ。この技術は、まだ現実世界の人混みの中で実証されていないが、2人の話者の音声を1つのオーディオトラックに記録した動画では、うまく音声を分離できている。


 加えて、騒がしいカフェの背景音を消去して1人の話者の声だけを抽出する動画も公開しており、Google Glassはさておき、この技術を利用すれば補聴器利用者により明瞭な音声を届けられるだろう。

 「ユーザーは、動画の中で聞き取りたいと思う人物の顔を選択するか、コンテキストに基づいてその人物をアルゴリズム的に選ばせるだけでいい」とGoogle ResearchのInbar Mosseri氏とOran Lang氏は記している

 研究者らは論文の中でGoogle Glassについてまったく触れていないが、この技術は特に複数の話者がいる状況で補聴器を着けている人の役に立つ可能性があると述べている。また、ビデオ会議や、動画に含まれる音声の音質改善や認識にも役立つかもしれない。

 Google Glassの視覚化補聴器機能はまだ先のことだろうが、Googleがこの技術を音声認識や動画の字幕作成に応用するのなら、視覚化補聴器も可能になるとの希望を与えてくれる。

 Google Research Blogに掲載されたYouTube動画で字幕をオンにすることにより、音声分離技術の効果を確認することができる。

 音声分離技術のカギを握るのは、ビジュアルキュー(視覚的な合図)の利用だ。こうした視覚的な合図には話し手の口の動きなどがあり、これを話し手から発せられる音と相互に関連付けて、声の持ち主による音声を識別する。

 「われわれの論文で示しているように、視覚信号は音声だけを使用した音声分離と比べて、さまざまな音声が混ざりあっている場合に音声分離の品質を大幅に改善するだけでなく、重要なことに、分離されたクリーンな音声トラックを動画に登場する話し手と関連付ける」(Google)

 音声分離モデルを作成するため、研究者らは話者の顔が見える数千時間分のYouTube動画クリップを利用して「人為的なカクテルパーティ状態」を作り出し、これがニューラルネットワークのトレーニングデータになった。

 研究者らは、この技術にはさまざまな応用法があると考えており、現在はGoogle製品のどこに組み込めるかを模索している。


提供:Google

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

  • このエントリーをはてなブックマークに追加

この記事を読んだ方に

関連ホワイトペーパー

連載

CIO
IT部門の苦悩
Rethink Internet:インターネット再考
インシデントをもたらすヒューマンエラー
トランザクションの今昔物語
エリック松永のデジタルIQ道場
研究現場から見たAI
Fintechの正体
米ZDNet編集長Larryの独り言
大木豊成「仕事で使うアップルのトリセツ」
山本雅史「ハードから読み解くITトレンド放談」
田中克己「2020年のIT企業」
松岡功「一言もの申す」
松岡功「今週の明言」
内山悟志「IT部門はどこに向かうのか」
林 雅之「デジタル未来からの手紙」
谷川耕一「エンプラITならこれは知っとけ」
大河原克行「エンプラ徒然」
内製化とユーザー体験の関係
「プロジェクトマネジメント」の解き方
ITは「ひみつ道具」の夢を見る
セキュリティ
「企業セキュリティの歩き方」
「サイバーセキュリティ未来考」
「ネットワークセキュリティの要諦」
「セキュリティの論点」
スペシャル
ざっくりわかるSNSマーケティング入門
課題解決のためのUI/UX
誰もが開発者になる時代 ~業務システム開発の現場を行く~
「Windows 10」法人導入の手引き
ソフトウェア開発パラダイムの進化
エンタープライズトレンド
10の事情
座談会@ZDNet
Dr.津田のクラウドトップガン対談
Gartner Symposium
IBM World of Watson
de:code
Sapphire Now
VMworld
Microsoft WPC
Microsoft Connect()
HPE Discover
Oracle OpenWorld
Dell EMC World
AWS re:Invent
AWS Summit
PTC LiveWorx
より賢く活用するためのOSS最新動向
古賀政純「Dockerがもたらすビジネス変革」
中国ビジネス四方山話
ベトナムでビジネス
米株式動向
日本株展望
企業決算
このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]