音声認識やリアルタイム通訳は、研究所レベルのテクノロジとしてはしばらく前から存在していた。限定的な環境ではうまく機能するとしても、外の世界で使うには工夫が必要になる。使われる状況や環境の幅広さを考えればなおさらだ。
Satya Nadella氏が、ニューラルネットによる通訳の仕組みを理解していないというのは、間違いではないが、限定的な意味で言っているにすぎない。MSRは「転移学習」と呼ばれるものをしばらく前から研究してきた。ハイパースケールシステムと、英語についての十分なデータソースがあれば、データが多すぎてニューラルネットワークの信頼性が下がってしまう「過剰適合」という問題を克服することができる。
MSRの現行世代のニューラルネットは、より多くのデータで学習を続けることで、結果が向上する。話が面白くなってくるのは、同じニューラルネットを中国語でもトレーニングした場合だ。中国語を学習するだけでなく、英語のパフォーマンスも改善する。同じネットをフランス語でトレーニングすると、フランス語の方が学習時間が短くなり、同時に英語と中国語の両方の認識パフォーマンスが良くなる。
こういった場面で役立つのが転移学習だ。ある言語のためのニューラルネットによって、別の言語のためのニューラルネットの生成が容易になる。この効果が見られるのはMSRの人工知能だけではない。ほかの研究者も同じ効果を確認している。この共通した効果が意味するのは、ニューラルネットの下層が「人間の言語の構造を発見している」ことだとLee氏は指摘する。魅力的な発見だ。「人間の会話の理解において重大な意味がある。この分野における興奮は、どれだけ強調してもしすぎではない」(Lee氏)
人工知能は、現代の言語学で最も古くから続いていた議論の1つを解決に導いたのだろうか。Noam Chomsky氏が1950年代に、あらゆる言語は共通の深層構造に基づいているという説を提唱すると、そこから生まれた一連の議論は過去50年間近くにわたって続いてきた。しかし現在では、Skypeの通訳機能を動かしているようなニューラルネットによって、関連語の間にある深い統計的なつながりが見えるようになりつつある。たとえば、男女の関係以外ではつながりようのない関連語だ。
使えるデータが増えるほど、そうした通訳機能は改善されていく。このことはBingによるTwitterの自動翻訳機能からも分かる。Lee氏が言うように、ユーモアなど扱いにくいものもある。しかし、その成果であるデータの宝庫によって、スマートフォンが優れたアシスタントになり、言語の障壁が崩れ始めている。
つまり、これがMSRの実用から遠い大規模な研究や、Bingの中心にある大量のデータが持つ価値である。成果が得られるまでには数年かかるかもしれないが、それが実現したときには、机の上やポケットの中にあるデバイスで、世界を大きく変えるようなことができる。それこそが、Nadella氏の環境知能を動かすエンジンであり、Microsoftの未来である。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。