IBMが、最新の音声認識テストでMicrosoftを僅差で抑え、単語誤り率5.5%を記録している。
提供:IBM
この誤り率は、人間が会話中に聞き落とす20単語につき1単語というおおよその率に匹敵する。Microsoftは2016年10月、IBMが2016年に発表していた最高記録である6.9%を破る5.9%という記録を出したが、今回IBMが再び上回った格好だ。
だがIBMは、会話を理解するという点で機械が人間を上回るのはもう少し先になる可能性があると強調している。Microsoftは単語誤り率が5.9%を記録した際に、「ヒューマンパリティ(人間と同程度であること)」に到達したとしていたが、最新の調査によりMicrosoftを祝福するのはまだ早いことがわかったとIBMは述べている。
「われわれはまだシャンパンを開けて祝う段階にはない」とIBMの首席リサーチサイエンティストGeorge Saon氏は記している。Saon氏によると、今回のマイルストーンを達成する過程で、実際にはヒューマンパリティはもっと低く、誰も到達していない5.1%であると判断したという。
単語誤り率5.5%に到達するために、IBMは長期短期記憶(LSTM)とWaveNet言語モデルを組み合わせた。見知らぬ人同士のフォーマルな電話の会話を含む「Switchboard」コーパスを使ってこれらのモデルをテストしたという。さらにIBMは、よりカジュアルな家族間の会話を含む「CallHome」でもテストした。会話の話題はさまざまで事前の設定はない。このテストでのIBMシステムの単語誤り率は10.3%だった。人間の場合は6.8%だ。
IBMが公開している研究論文によると、Switchboardテストにはいくつかの問題があるという。「40のテストスピーカーのうち36人がトレーニングデータに登場している。8種類もの会話に登場しているものもあった。われわれの音響モデルは、トレーニング中に出てきた音声パターンを記憶するのに長けている」。
CallHomeのテストで生じた大きな差異は、その音響および言語モデルがテストスピーカーのデータを経験していなかったことによるものだ。
IBMは、同社の音声認識における成果を使って、「Watson Speech to Text」サービスに新しい機能を加えていると述べている。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。