NTTテクノクロス、コールセンターAIの音声認識精度を向上--次世代メディア処理AIと連携

NO BUDGET

2024-09-02 13:34

 NTTテクノクロスは8月30日、コールセンターAIプロダクト「ForeSight Voice Mining」(FSVM)の新バージョンを提供した。次世代メディア処理AIとの連携により、音声認識精度が向上したという。

 FSVMは、音声認識や感情分析、言語解析技術を活用し、通話内容のテキスト化、要約、マニュアル自動表示、通話モニタリングなどを提供するコールセンターAIプロダクト。コールセンターや自治体などの電話応対業務の応対力向上を支援する。

 今回、FSVMにNTTの研究所が開発した次世代メディア処理AIを連携することで、従来よりも少ないデータ量で精度向上を可能にした。また音声データ入力からテキスト出力までをオールインワンで実現する「End-to-End音声認識技術」により、高精度な音声認識を実現した。

コールセンターにおけるEnd-to-End音声認識技術の利用イメージ
コールセンターにおけるEnd-to-End音声認識技術の利用イメージ

 End-to-End音声認識技術は、音声データを直接テキストにする手法。音声からテキストへの変換をディープニューラルネットワークにより一括で行える。シンプルな構成により、音響モデル・認識辞書・言語モデルを組み合わせた方式よりも上回る精度を実現する。

 具体的には、顧客側の発話内容の音声認識率が最大9%向上し、話し言葉や、くだけた表現も認識可能となり、高精度な音声認識を実現した。なお認識精度の検証はコールセンターの実通話データを用いて実施したという。

 今後、同社は認識テキストと感情情報を組み合わせた通話情報の可視化や、認識テキストと生成AIを組み合わせた高度な機能提供を予定している。これにより、コールセンター業務の効率化や顧客体験(CX)向上に貢献していくという。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]