NTTテクノクロスは8月30日、コールセンターAIプロダクト「ForeSight Voice Mining」(FSVM)の新バージョンを提供した。次世代メディア処理AIとの連携により、音声認識精度が向上したという。
FSVMは、音声認識や感情分析、言語解析技術を活用し、通話内容のテキスト化、要約、マニュアル自動表示、通話モニタリングなどを提供するコールセンターAIプロダクト。コールセンターや自治体などの電話応対業務の応対力向上を支援する。
今回、FSVMにNTTの研究所が開発した次世代メディア処理AIを連携することで、従来よりも少ないデータ量で精度向上を可能にした。また音声データ入力からテキスト出力までをオールインワンで実現する「End-to-End音声認識技術」により、高精度な音声認識を実現した。
コールセンターにおけるEnd-to-End音声認識技術の利用イメージ
End-to-End音声認識技術は、音声データを直接テキストにする手法。音声からテキストへの変換をディープニューラルネットワークにより一括で行える。シンプルな構成により、音響モデル・認識辞書・言語モデルを組み合わせた方式よりも上回る精度を実現する。
具体的には、顧客側の発話内容の音声認識率が最大9%向上し、話し言葉や、くだけた表現も認識可能となり、高精度な音声認識を実現した。なお認識精度の検証はコールセンターの実通話データを用いて実施したという。
今後、同社は認識テキストと感情情報を組み合わせた通話情報の可視化や、認識テキストと生成AIを組み合わせた高度な機能提供を予定している。これにより、コールセンター業務の効率化や顧客体験(CX)向上に貢献していくという。