編集部からのお知らせ
Pick up! ローコード開発の行方
「これからの企業IT」の記事はこちら

マイクロソフトの音声認識システム、「人と同等」レベルに到達

Liam Tung (ZDNet.com) 翻訳校正: 矢倉美登里 吉武稔夫 (ガリレオ)

2017-08-24 13:18

 Microsoftの研究員が開発した音声認識システムが、人間の速記者と同レベルとされる単語誤り率を達成した。

 Microsoftは米国時間8月21日、同社の音声認識システムが、プロの速記者に匹敵するとされる5.1%の単語誤り率に達したと発表した。

 Microsoftは2016年、5.9%の単語誤り率で「ヒューマンパリティ(人間と同程度)」に到達したと考えたが、IBMの研究員らは、そこまでのレベルに達したとするには、IBMの最高記録である5.5%をやや上回る5.1%に達する必要があると主張した。

 IBMが実施した速記者に関する研究では、数人に会話を何回か聞いてもらい、もっとも優秀な速記者の結果が選ばれた。

 Microsoftのシステムは、2016年のテストと同様に、データセット「Switchboard」コーパスを使って測定された。Switchboardコーパスは、見知らぬ者同士が電話越しに米国英語で交わした約2400の双方向の会話から成るデータセットだ。このテストは、スポーツから政治までさまざまなテーマについて交わされた会話を文字化するものだ。

 MicrosoftのテクニカルフェローであるXuedong Huang氏は、次のように述べている。「音響モデリングを改善するため、CNN-BLSTM(Convolutional Neural Network combined with Bidirectional Long-Short-Term Memory:畳み込みニューラルネットワークと双方向長短期記憶の組み合わせ)モデルを追加した。また、複数の音響モデルに基づく予測を組み合わせるアプローチを、フレーム/セノンレベルと単語レベルの両方で取り入れた」

 「さらに、会話セッションの全履歴を使って、会話の次の流れを予測させた。これによって、音声認識システムの言語モデルが強化され、会話のテーマやその場の文脈に有効に適応できるようになった」

 重要な節目を迎えたものの、Microsoftは、さまざまな訛りや話し方を認識するのが機械にはまだ難しく、騒がしい環境ではパフォーマンスが良くないと認めている。

 Microsoftは、文脈を検知して会話をこれまでより正確に文字化するようモデルをトレーニングすることに成功したが、会話の意味を実際に理解するようコンピュータをトレーニングできるまでには、長い道のりがある。

Microsoft
提供:Microsoft

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

特集

CIO

モバイル

セキュリティ

スペシャル

ホワイトペーパー

新着

ランキング

  1. 運用管理

    ファイルサーバ管理のコツはここにあり!「無法状態」から脱出するプロセスを徹底解説

  2. クラウドコンピューティング

    社員の生産性を約2倍まで向上、注目の企業事例から学ぶDX成功のポイント

  3. コミュニケーション

    真の顧客理解でCX向上を実現、いまさら聞けない「データドリブンマーケティング」入門

  4. ビジネスアプリケーション

    デメリットも把握しなければテレワークは失敗に?─LIXIL等に学ぶ導入ステップや運用のコツ

  5. 運用管理

    ニューノーマルな働き方を支えるセキュリティ-曖昧になる境界に変わらなくてはならないデータセンター運用

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNet Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]