人間の脳のように音声情報を処理--NTTテクノクロスが音声認識ソフトウェア

大場みのり（編集部）

2021-11-12 15:14

　NTTテクノクロスは11月12日、音声認識ソフトウェア「SpeechRec Server（スピーチレックサーバー）」の新バージョンを提供すると発表した。11月19日に発売する。SpeechRec Serverでは、NTT研究所が新たに開発した、音声音響処理、自然言語処理などの情報を人間の脳と同様に一貫して処理できる人工知能（AI）が活用されている。

　近年、DX（デジタルトランスフォーメーション）の浸透や働き方改革により、官公庁やコンタクトセンターをはじめとする企業などにおいて、音声認識ソフトウェアのニーズが高まっている。その中でNTTテクノクロスは、50年以上にわたるNTT研究所の音声研究の成果や最新技術を活用し、2012年から音声認識ソフトウェア「SpeechRec」を展開している。今回、NTTコンピュータ＆データサイエンス研究所が開発した次世代メディア処理AI「MediaGnosis」をSpeechRec Serverに活用し、より高精度で多機能な音声認識を実現したという。

　SpeechRec Serverの新バージョンでは、MediaGnosisを活用した音声情報処理として「End-to-End」方式を採用。これまで一部の音声情報処理のみに適用していたDNN（ディープニューラルネットワーク）を全てに適用し、音声データ入力からテキスト出力までを実現している。人間の脳と同じように、音声から日本語を理解するスムーズな処理が可能になり、音声認識精度が向上した。

　MediaGnosisにより、相づちや「えー」「あのー」などのつなぎ言葉に加え、「私なんかは」などの話し言葉特有の表現を認識し、話の意味を理解しやすいテキストに変換する（図1）。テキスト化された情報を内容ごとに分類して表示することも可能。従来の音声認識ソフトウェアは、音声認識結果の変換と分類にそれぞれ専用のソフトウェアが必要だったが、SpeechRec Serverの新バージョンでは一つで処理を実現する。システムの複雑化やコスト低減につながるほか、新たなテキスト処理のニーズが出てきた場合は、システム構成を変えずに対応することができる。

　複数の話者が話す場合、話者を識別するために話者の音声を事前登録したり、話者ごとにマイクを分けたりする必要がなく、話者の声質や波形などの特徴から、MediaGnosisが自動で話者を識別する。