当社は、処理能力に制約があるエッジデバイス上でも高速に動作する音声キーワード検出機能付き話者認識AIを世界で初めて開発しました。本技術を家電に搭載すれば、家電がネットワークに接続していなくても、3回の発話で完了する話者登録に加え、音声による操作、話者に合わせて機器の動きを変更することが可能となります
当社は、本技術の詳細を、2020年2月22日~24日にマルタで開催される国際学会ICPRAM2020にて発表します。
音声認識技術の市場規模は、2024年には世界で約2兆3千億円になると予想されています。企業等においては業務効率化や人手不足の問題解決に向けて活用が進む一方、家庭においてはユーザーが話しかけるだけで自動的にキーワードを検出し家電等のエッジデバイスの操作につなげる機器が増加しています。音声による機器操作においては、キーワード検出のみならず、話者を認識し、話者に合わせて機器の動きを変更する機能も出てきており、今後需要が拡大するとみられています。
例えば、エアコンに対して「エアコンつけて」と発話したときに、その音声から話者を認識し、その人に合った温度でエアコンを起動するといった機能が挙げられます(図1)。
キーワード検出と話者認識機能の両立には膨大な計算が必要となるため、スマートフォンのような高性能な機器か、操作するエッジデバイスをネットワークに接続してクラウド上で計算を行うのが一般的です。身近にあるさまざまな機器で手軽にこうした機能を使うためには、処理能力に制約のあるエッジデバイスの機能(組込みシステム)の中で高速に動作するAIが必要です。
(リンク »)
図1:ユーザーを認識し、ユーザーに合わせた機器動作をする例
そこで当社は、ネットワークに接続していなくてもエッジデバイス上で、キーワード検出と話者認識を同時に行うAI技術を開発しました。本技術の特徴は2つあります。
1つ目の特徴は、キーワード検出で用いる情報の活用です。音声が入力されると、キーワード検出のニューラルネットワークで周辺雑音などの影響を吸収しつつ音声処理を行いますが、このニューラルネットワークの中間出力を使って話者登録・話者認識を行います(図2)。中間出力を使うことで、話者認識の際にも周辺の雑音の影響を抑えることが可能となります。また、話者認識のための音声処理の時間を大幅に削減できるため、限られた機能上で高速な動作が可能となります。
(リンク »)
図2:キーワード検出で用いた情報の活用
2つ目の特徴は、ニューラルネットワークのデータ拡張手法の活用です。データ拡張手法とは少ないデータ(発話)で学習する手法の1つで、ニューラルネットワークのノード間の接続の重みをランダムにゼロにすることで、同じ話者がさまざまなしゃべり方で発話したような音声情報を模擬的に生成することができます(図3)。話者を識別するためには、AIに話者を学習させる必要がありますが、この手法を使うことで、話者の発話数が少なくても話者を学習でき、話者登録時の必要発話数の削減を実現します。
(リンク »)
図3:ニューラルネットワークのデータ拡張手法の活用
本手法を各話者3回の発話を登録に用いるという条件で比較評価を行った結果、話者認識の一般的な手法であるi-vectorでは話者100名の識別精度が71%でしたが、本手法では89%という結果が得られました。実際に家電等のエッジデバイスを操作する場面では、登録話者は5名から10名程度と想定され、十分に実用性能があると考えられます。また、サーバーで計算量、処理速度の計測を行ったところ、ともに組込みシステムでも問題なく動作するという結果が得られました。
当社は、本技術を実際の組込みシステムに搭載し、家電などのユースケースで実用性の検証を進めます。また、東芝コミュニケーションAI「RECAIUS™(リカイアス)」での活用について、東芝デジタルソリューションズ株式会社と連携して検討を進めてまいります。
■東芝コミュニケーションAI「RECAIUS™(リカイアス)」について
人の活動現場の知見を効率よく集めてナレッジとし、状況に適した人の活動の意思決定を支援するサービスです。自然言語処理技術と知識処理技術を融合することで、人とシステムとのコミュニケーションを活性化します。RECAIUS™は、誰もが心地よく業務を遂行できる仕組みと効率の良い働き方の実現を目指すと共に、生活の快適化を図ります。
RECAIUST™ (リカイアス)ホームページ: (リンク »)
*RECAIUS™は、東芝デジタルソリューションズ株式会社の日本またはその他の国における登録商標または商標です。
*その他、本サイトに記載されている社名及び商品名はそれぞれ各社が商標または登録商標として使用している場合があります。
お問い合わせにつきましては発表元企業までお願いいたします。