音声認識・合成技術の進歩、自然言語処理(NLP)技術全般の発展、デバイスの低価格化などにより、計算機を使った音声対話システムが広く使われるようになってきている。また、モバイル端末でのショートメッセージサービス(SMS)やLINEのようなメッセージングサービスの普及によって、チャットボットのようなテキスト対話システムも普通に使われるようになってきている。
人間同士のやりとりと同様の方法でコンピューターシステムやネットワークサービスを使えるようになると、ユーザーにとって覚えるべきことが少なくなるなどの利点がある一方で、その特性や制約などがかえって分かりづらくなるといった側面もある。今回はそのようなシステムのエクスペリエンスからいろいろと考えてみたい。
ELIZA
テキストベースの自然言語対話型システムは、単純なものは古い時代から存在した。1960年代に開発された「ELIZA(エライザ)」というプログラムは、小さな知識ベースとシンプルなパターンマッチ、テンプレートでユーザーの発話に対して心理療法のセラピーのような言葉(主に問い掛け)を返す。ELIZAからはほとんどオウム返しに近いような回答しか返ってはこないが、シンプルさからすると意外に思えるレベルで、あたかも患者と療法士が対話しているかのようにユーザーとの対話が進む。
もちろん、トンチンカンな展開になることもあり、対話の様子を振り返れば内容はほとんど人間側のひとり語りになっていることはすぐに分かる。しかし、対話している間はたとえELIZAの仕組みを知っていたとしても、人間はつい無意識にELIZAが話を理解し、興味を持っているかのような錯覚を覚えてしまう。これは「ELIZA効果」と呼ばれ、自然言語での対話システムやそれによるエクスペリエンスを考える上で重要な要素の一つである。
コマンドラインインターフェースとチャットボット
文字のみで計算機とやりとりをするという意味では、ELIZAのような自然言語対話型システムもコマンドラインインターフェース(CLI)も同じである。最も重要な違いは許容される入力の言葉や文法の幅であり、また(発話をまたがるような)文脈が共有されている(と思える)かどうかも重要である。
通常のコマンドラインインターフェースでは“コマンド名 引数1 引数2 ...”のような形の単純な文法で命令を入力する必要があり、引数の順番などの自由度はあるものの、コマンド名などを少しでも間違えるとエラーになるか、あるいは全く違う動作をすることもある。そうした厳密さ、曖昧性の無さはもちろん目的によっては悪いものではなく、むしろ必要なものである。対して、人間が他の人間に何かを頼んだり尋ねたりするような場合には、同じことを伝えるにも言い方のバリエーションは広く、また多少の間違いや曖昧さも聞き手側で補完されることが期待される(そしてそれが問題を生む場合もある)。
聞き手側の立場から見ても、相手が人間であれば直接伝えられた言葉以外の状況やこれまでの文脈なども考慮しながら伝えられた言葉を解釈するということに慣れている。しかし、相手が計算機的なものだと状況が分かりづらかったり、文脈が共有できているかどうか不安を覚えたりしやすい。人間相手でも、「あまり考えずに“マニュアル通り”の対応をされている」と感じるのと同様の感覚に陥ることもある。
コマンドラインインターフェース的な厳密さと、日常会話のような自由度の高さとの間には、もちろんさまざまな段階がある(人間同士の会話でも相手や状況によって自由度は変わる)。簡易なチャットボットでもある程度の自由度は持たせられているし、昨今の音声インターフェースはかなり自由度の高い入力にも対応できるようになっている。
こうしたシステムのユーザーは、あまり言い方などを意識せず自然な文で伝わると感じると、ELIZA効果もあってシステムの性質を実際よりも人間に近いものと感じがちである。そして、そういう感覚が強まっているところに、システムからピントの外れた違和感の強い発話がなされると、いわゆる「不気味の谷」のような気味悪さを強く感じさせることがあるということは留意しておきたい。