スマートスピーカーはどのように人間の言葉を理解しているのか？ - (page 2)

Charly Walther （Gengo）

2019-01-17 07:00

スマートスピーカーが理解できる言葉が限定される理由

　また、スマートスピーカーは自然言語処理に大きく依存しているため、その技術的な限界に制約を受けてしまいます。自然言語処理はチャットボットやテキストインターフェースに関連付けられることが多いのですが、スマートスピーカーや携帯電話、コールセンターなどの音声言語技術にとっても重要です。

　最も優れた自然言語処理技術でも、隠喩や直喩といった複雑な表現方法には対応しきれていません。人間の会話はほとんどの場合、まっすぐに進みません。話していた内容を忘れてしまったり、話が脱線したり、一度に複数のことを質問したりします。機械がアルゴリズムを用いてこれらを理解するのは困難です。さらに、音声の場合、テキストでは取り扱う必要のない別の課題にも対処する必要があります。ユーザーエクスペリエンスを高めるためにアルゴリズムは背景の雑音や話者の訛りなども克服しなければならないのです。

　スマートスピーカーのもう一つの課題は、多数派（マジョリティ）にとって便利なように構築されていることが多いということです。AlexaやSiriが提供する回答は、学習データの大部分を生成した人々のニーズに適合するようになっているため、少数派（マイノリティ）にとってはそれほど役に立たないかもしれません。これは、そもそもスマートスピーカーが人気になった理由の一つである、人々の生活をより簡単に効率的にするということと矛盾するため、とても残念なことです。

スマートスピーカーの未来

　現段階でスマートスピーカーがマイノリティにサービスを提供できていないもう一つの例としては、言語障害者への対応が挙げられます。Siriは、このような人々が話す文章をたった一文も理解できない可能性があるのです。そのため、Googleは、言語障害者も利用できるように改良に取り組んでいますし、Amazonは手話を理解できるスマートスピーカーを開発しました。

　現在、言語障害者でも利用できるスマートスピーカーの開発に取り組んでいる新興のハイテク企業もあります。例えば、Voiceittという新興企業では、標準外の話し言葉を理解する音声認識技術を提供することに重点を置いています。共同創業者で最高経営責任者（CEO）のDanny Weissberg氏は、祖母が脳卒中を起こして話す能力をほとんど失ったことを受けて、その助けとなる技術の開発を目指しました。

　Voiceittのアプリでは、言語障害のあるユーザーに独自の辞書を作ってもらってから、それを標準的な音声に変換して他の音声対応デバイスをコントロールします。辞書を作るためには、ユーザーが「お腹が空いた」「電気をつけて」などの日常的なフレーズを作成し、読み上げます。Voiceittのソフトウェアはその音声を記録し、ユーザー独自の発音を徐々に学習します。

　このようにユーザー独自の発話を学習した後、アプリがインスタント翻訳機のように機能します。ユーザーが話しかけると、Voiceittアプリが他人やスマートデバイスに理解できるよう音声で読み上げたり、テキストに変換したりするわけです。

Charly Walther: Gengo プロダクト＆グロース担当バイスプレジデント; ベルリン出身。イエール大学卒業。サンフランシスコでKPCB Product Fellow、Uber（Uber Advanced Technologies Group）のプロダクトマネージャーを経て2017年にGengoへ参画。現在はGengoAIの開発に従事。