マイクロソフトの音声認識システム、「人と同等」レベルに到達

Liam Tung （ZDNET.com）翻訳校正：矢倉美登里吉武稔夫（ガリレオ）

2017-08-24 13:18

　Microsoftの研究員が開発した音声認識システムが、人間の速記者と同レベルとされる単語誤り率を達成した。

　Microsoftは米国時間8月21日、同社の音声認識システムが、プロの速記者に匹敵するとされる5.1％の単語誤り率に達したと発表した。

　Microsoftは2016年、5.9％の単語誤り率で「ヒューマンパリティ（人間と同程度）」に到達したと考えたが、IBMの研究員らは、そこまでのレベルに達したとするには、IBMの最高記録である5.5％をやや上回る5.1％に達する必要があると主張した。

　IBMが実施した速記者に関する研究では、数人に会話を何回か聞いてもらい、もっとも優秀な速記者の結果が選ばれた。

　Microsoftのシステムは、2016年のテストと同様に、データセット「Switchboard」コーパスを使って測定された。Switchboardコーパスは、見知らぬ者同士が電話越しに米国英語で交わした約2400の双方向の会話から成るデータセットだ。このテストは、スポーツから政治までさまざまなテーマについて交わされた会話を文字化するものだ。

　MicrosoftのテクニカルフェローであるXuedong Huang氏は、次のように述べている。「音響モデリングを改善するため、CNN-BLSTM（Convolutional Neural Network combined with Bidirectional Long-Short-Term Memory：畳み込みニューラルネットワークと双方向長短期記憶の組み合わせ）モデルを追加した。また、複数の音響モデルに基づく予測を組み合わせるアプローチを、フレーム／セノンレベルと単語レベルの両方で取り入れた」

　「さらに、会話セッションの全履歴を使って、会話の次の流れを予測させた。これによって、音声認識システムの言語モデルが強化され、会話のテーマやその場の文脈に有効に適応できるようになった」

　重要な節目を迎えたものの、Microsoftは、さまざまな訛りや話し方を認識するのが機械にはまだ難しく、騒がしい環境ではパフォーマンスが良くないと認めている。

　Microsoftは、文脈を検知して会話をこれまでより正確に文字化するようモデルをトレーニングすることに成功したが、会話の意味を実際に理解するようコンピュータをトレーニングできるまでには、長い道のりがある。