ビル・ゲイツ氏が語る音声認識の未来とナチュラルインターフェース

文：Ina Fried 翻訳校正：吉井美有

2007-11-01 08:04

　サンフランシスコ発--Bill Gates氏は長年の間、近い将来コンピュータを手書き文字や声、タッチで制御するようになる日が来るだろうと言い続けてきた。

　Gates氏は今でもそう言っている。CNET News.comのインタビューの中で、Gates氏は音声認識が既に実用化されている分野や、今後使われるようになるシーン等を議論した。

　Microsoftの企業向けテレフォニーソフトウェアの新版の発売に関連して、Gates氏は、なぜビジネス電話がこんなに長い間変わらずに来たのか、そしてもしそれがPCと同じネットワークの一部になったら物事がどれだけ変わるかを議論した。さらに同氏は、MicrosoftのテーブルトップコンピュータSurfaceとAppleのiPhoneを例にひいてマルチタッチの考え方に人気が集まっていることを示しながら、タッチスクリーンコンピューティングの可能性について語った。

　Gates氏は2008年にはMicrosoftでの仕事はパートタイムになる予定だが、いくつかの重要なプロジェクトは同氏の監督下に置かれる予定であり、自然言語インターフェースにはついてはおそらく継続的に取り組んでいくだろうと同氏は語る。検索と将来のOfficeも可能性の高い候補だという。

―音声の可能性を本当に感じたのはいつですか。何年も前に、早い段階で本物の可能性を感じられるようなデモを見たのでしょうか。

　コンピュータが音声入力を処理できるようになるべきだという考え方は昔からあります。これは、自然なコミュニケーションの形です。1970年代に、DARPAがHarvardの研究者を含む人たちに資金を与え、音声認識を研究させています。そして、これは簡単にできるに違いないと思われがちなことでもあります。人間の声を理解できるコンピュータという夢は昔からあるものです。そして、データネットワークと音声ネットワークが1つになるという夢も、同様に昔からあります。

　Microsoftは早い時期から、データネットワークだけでなく、音声ネットワークと動画ネットワークも、ソフトウェアの魔法が実現できると考えており、この課題に深入りしてきました。正直に言って、わたしたちの本当の驚きは、世界が基本的に現状に満足しており、人々がリスクを取りたがらないということです。特に、ビジネス電話を新しいプラットフォームに移行するということについては。

　PBX（企業が通話を管理するのに使う構内交換機）は、単なるコンピュータですが、これまで長い間他のインフラと並行して使われてきました。PBXのケーブルも、電話番号表も、サーバも存在し続けています。われわれは、根気よくこれに投資し続けています。実際、われわれは1999年に最初の大規模なPBXタイプの音声に関する仕事を始めています。

―その時点では、この動きはもっと早く起こるだろうと思っていたのですね。

　われわれが新しいものにソフトウェアの魔法をかけるときには、早すぎるぶんには構いません。しかし遅すぎてはいけません。われわれは、断片が1つにまとまり始めていると考えました。ですから、投資をすることは理に適っていたのです。特に、Exchange、Outlook、Officeが非常に強力になっており、電話の部分以外のことにはすべてわれわれのものが使われていましたから、そこにも進出したかったのです。今こそ電話も取り込み、それを進めることが、われわれにとっては明らかな大きなチャンスだと考えていました。

　ここ8年の間に、われわれはインターネットを基盤として使う経験を持った十分な数の顧客を持つようになり、PCがこの全体像の中に入ってきました。

―音声認識については、100％の認識率がなくとも役に立つアプリケーションがあるはずだという考え方があります。そのような分野を見つけることが、音声認識が主流になるために重要なのでしょうか。

　その通りです。われわれが取り組んでいる統合コミュニケーションの中では、音声認識は実際には必要不可欠なものではありません。これには、いくつかの側面があります。例えば、音声会議をやるときに、誰が話しているのかをわかるようにするのもそうした側面のひとつです。現在の伝統的な音声会議で不便なのは、誰がそこにいて誰がいないかがわからず、誰かが話し始めたときにそれが誰かがわからないことがあるということです。

　RoundTable（Microsoftのビデオ会議用360度カメラ）では、動画と音声の情報を使って、誰が話しているかをわかるようにし、その人に焦点を当てます。画面の下部に部屋全体の様子が常に映し出されていますが、拡大画像も同時に見ることができます。また、ずれが生じた際などには、全体の画像を見て何が起こっているかを確かめることもできます。また、ユーザーが関心を持ったところにカメラマンが焦点を当てるように、横長の画面が機能します。

　ミーティング中にきいたことばを調べたいと思って、ある言葉が3つのうちのどれかだという可能性があるとき、ユーザーは簡単にその3つすべてをインデックスすることができます。検索の際に間違ってしまう可能性があっても、つまり、会話のある部分を取ったとき、似たような響きの言葉があったとしても、それは大きな問題ではありません。ユーザーはそれをちらっと見て、飛ばすことができます。完璧かどうかは大きな問題ではありません。