スマートスピーカーはどのように人間の言葉を理解しているのか？

Charly Walther （Gengo）

2019-01-17 07:00

　前回記事では、現在、人工知能（AI）の学習データが不足していること、そしてそれがAI開発にどう影響を与えているかについて取り上げました。今回はAIの活用事例の一つであるスマートスピーカー（AIスピーカー）について詳しく見ていきましょう。

世界中で人気になっているスマートスピーカー

　音声認識業界は、2018～2025年の間に年率17%で成長すると予想されています。また、音声認識市場はAIベースのソフトウェアが主軸となり、同期間に約30%という驚異的な成長が見込まれています。

　スマートスピーカーは小型ですが、ウェイクワードやコマンド（「Hey, Siri」「Alexa」「OK, Google」など）に反応して、さまざまなタスクをこなすことができます。例えば、電気をつける、音楽をかける、天気を調べる、オンラインで買う、レストランを予約するなどです。

　さらに、スマートスピーカーは自動車でも広範に活用されるようになってきています。新しい車種では最近、スマートスピーカーが内蔵されています。トヨタ自動車は既に一部の車種に「Amazon Alexa」を搭載しています。海外では、BMWやMercedes-Benz、Fordも新しい車種にスマートスピーカーの導入を始めています。これからはカーナビを手動で操作しなくても、Alexaに道順や駐車場の情報を尋ねることができるようになるでしょう。さらに、自宅のスマートスピーカーと同期する車載用スマートスピーカーの設計に取り組む会社も出てきています。

スマートスピーカーに活用されている技術

　たいていの人はAlexaやAppleのSiriを一度は使ったことがあると思いますが、これら人気のスマートスピーカー／音声アシスタントを動かしている技術である自然言語処理（NLP）や音声認識ソフトウェアについてはご存じないかもしれません。音声認識ソフトウェアはユーザーの音声を分析することによって機能します。

　そのプロセスは、（1）ユーザーの話す言葉をフィルタにかける、（2）ユーザーの音声を機械が読めるフォーマットにデジタル化する、（3）ユーザーの音声の意味を分析する、（4）これまで入力されたデータやアルゴリズムに基づいてユーザーのニーズを見極める――という順番で処理されています。

　4番目の「これまで入力されたデータやアルゴリズム」に関しては、ユーザーの命令を理解してタスクを実行できる効果的なスマートスピーカーを構築するために、大量の音声学習データが必要になります。

　どのようなアルゴリズムの場合でも同じですが、機械学習の学習データとして使用するためにはまず、生の音声データをクリーンアップし、ラベル付けをする必要があります。スマートスピーカーのアルゴリズムがさまざまな環境やコンテキストで人間の音声を理解し、反応できるようにするためには、音声学習データセットに大量の正確な言語データを組み込まなければならないのです。例えば、中国語の場合、話し言葉に130種類の方言があり、書き言葉は30種類あるため、最先端技術ソリューションや処理された学習データセットに対する大きな需要が生じます。

　音声学習データセットには、同じ要求や意味を表現する、さまざまな言い方を含める必要もあります。例えば、明日雨が降るかどうかを知りたい場合、「明日の天気は何ですか」「明日は雨が降りますか」「明日の降水確率は何パーセントですか」「雨雲の動きはどうなっていますか」「明日は傘を持った方がいいですか」といった言い方が考えられます。効果的なスマートスピーカーを構築するためには、これらが全て、明日雨が降るかどうかを尋ねていることを理解できるように学習させなければなりません。