NTTコミュニケーションズは3月29日、AI(人工知能)が自動で文字起こしや翻訳を行う議事メモ作成サポートサービス「COTOHA Meeting Assist」を4月1日から提供すると発表した。同社が以前から提供している自然言語解析技術を活用したAIサービス「COTOHA」シリーズの新サービスと位置付けられるクラウドサービスで、音声を文字に変換する「音声認識API」や「翻訳」などは既存のCOTOHA APIで提供されている機能を別途契約して組み合わせて利用する形となる。
NTTコミュニケーションズ アプリケーション&コンテンツサービス部 AI推進室長の三竹保宏氏
概要を説明したアプリケーション&コンテンツサービス部 AI推進室長の三竹保宏氏は、NTTは元々電話サービスから事業を開始しており、当初から日本語を取り扱ってきた長い歴史があるとして、同社の「COTOHA」シリーズが特に日本語処理に強いことを強調した。
COTOHA Meeting Assistは、クラウド上に仮想的なミーティングルームを作り、そこに参加者がそれぞれログインして会話するという形で利用する。各人の発言内容はリアルタイムにテキスト化され、画面上に文字として表示される上、対応している言語であれば翻訳も可能とする。
COTOHAシリーズの進化
例えば、英語で発言された内容を日本語で画面表示することもリアルタイムに行える。従来であれば、語学力に秀でた人が時間を掛けて音声の文字化や翻訳を行っていたのに対し、自動でほぼ瞬時にテキストが得られるため、出力をチェックして間違いを修正するだけで良いなど、大幅な省力化/効率化が実現される。
ただし、同社自身が“議事メモ作成サポートサービス”とうたっている通り、全自動で完全な議事録が作成できるというものではなく、「会議に出席して内容を理解している人がチェックして間違いを修正することを想定している」(三竹氏)となる。また、中核機能である音声認識や翻訳は別途COTOHA APIとして提供されているものを使っており、「COTOHA Meeting Assist」で新たに提供されるのは基本的には仮想ミーティングルームの機能だと考えて良い。COTOHA APIを活用することでどのようなソリューションが実現可能なのか、同社自身が具体的なユースケースとして提案したものと位置づけることもできるだろう。
現時点での音声認識精度の限界から、基本的な利用環境としては「発言者が個々に独立したマイクを利用する」「ヘッドセットやイヤホンマイクなど、音声のみを明瞭に録音できるマイクを利用する」ことが想定されている。逆に言えば、一般的な会議室の中央にICレコーダーを置いて全員の発言を録音すると言った形では、各人の発言を明確に分離できなかったり、背景ノイズから発言部分を抽出する処理が上手くいかなかったりといった理由から、認識精度が大幅に下がってしまうという。
COTOHA Meeting Assistのデモ画面。英語と日本語で会議をしているところで、画面は日本人参加者が見ている画面。発言がリアルタイムでテキスト化されていく。「営業部 Ryan」氏の発言は実際は英語だが、画面上には日本語に翻訳された結果が表示され、SFなどでよく見かける「自動翻訳装置」が実現したかのようなイメージになっている
翻訳前の音声認識結果を表示したところ。日本語の処理に強いというだけあり、日本語の発言については正確にテキスト化できているが、英語の方はセンテンス末尾の音を取りこぼす傾向が見られた。今後さらに精度が向上していくことが期待されるが、現状ではある程度の修正作業は不可欠だろう。ただし、ほぼ正確な文字起こしがリアルタイムにでき来上がることによる省力化の効果は現時点でかなり大きいことが理解できた
その点、COTOHA Meeting Assistはオンラインの仮想ミーティングルームなので、ここにアクセスする時点で参加者はそれぞれ自分のPCからリモートでアクセスしていることがほぼ確実であり、PC経由の音声コミュニケーションということでヘッドセットなどを利用していることも想定される。リモートからの多言語コミュニケーションをサポートできるという点で働き方改革などに寄与できるサービスであると同時に、COTOHA APIの現時点で実現された機能を活用するためのサンプルアプリケーションとして、COTOHA APIの能力を最大限に引き出せる利用環境が自然に利用できるような形で実装されていると見てよさそうだ。
利用料金は、基本契約が月額3万5000円で、オプションでCPU、メモリ、ストレージなどを追加可能。なお、音声認識APIや翻訳APIは別途契約が必要でこちらは従量制課金となる。