rinnaは11月30日、AI(人工知能)キャラクターの音声表現を高める新技術「多話者多言語音声合成」を発表した。同社はMicrosoft AI and Research Groupや、マイクロソフトディベロップメントでAIチャットボットの研究・開発に従事していたメンバーが、2020年6月に分社化する形で設立された企業だ。
同社は、AIが文脈に応じて会話文を自動生成し、人間と自然な会話を実現する「共感チャットモデル」や、AIが文脈に応じた感情を音声表現する「音声合成システム」を通じて企業のマーケティング活動などを支援してきた。
rinna Chief Rinna Officerの坪井一菜氏
同社の多話者多言語音声合成は、12月18日から東映が配給する「劇場版 仮面ライダーゼロワン REAL×TIME」に登場するAIキャラクターの音声に採用された。これについて、Chief Rinna Officerを務める坪井一菜氏は、「われわれのビジョンであるAIが(人同士の)コミュニケーションの中で活躍し、社会的なポジションを獲得する第一歩。『りんな』だけではなく、理想とするキャラクター性を持ったAIの未来を実現するために、AI技術の研究・開発を続ける」と述べた。
多話者多言語音声合成システムの概要
従来の音声合成システムは、話者や言語ごとに異なるテキストと、音声データをAIに学習させることで、音声合成モデルを実現している。だが、「1人の話者から音声合成モデルを作成するには、3時間程度の音声データが必要」(rinna Research Managerの沢田慶氏)という課題を抱えてきた。
今回rinnaが発表した多話者多言語音声合成システムは、異なる話者の音声データや異なる言語から1つの音声合成モデルの学習環境を用意することで、少量の音声データからキャラクター性を持った音声や、キャラクター性を保持したまま多言語の音声を合成することを可能にしている。
実現の理由として沢田氏は、「深層学習技術の発展で大量データの学習が可能になった」と説明。AI学習基盤の発展が学習時間の短縮にもつながり、他者の音声データを利用することで、対象となる話者の音声データが少ない場合でも音声合成モデルの再現が可能になった。「具体的な時間は計測していないが、今後は数十分レベルに」(沢田氏)と短縮可能であることを説明する。
rinna Research Managerの沢田慶氏
rinnaの多話者多言語音声合成システムを採用した東映 映画宣伝部の三橋剛氏は、「(映画は)主要モチーフにAIロボットが登場する関係から、『りんな』の存在に気付いてコラボレーションを申し入れた。(映画内では)緊急ニュースを読み上げる場面を担当するが、台詞変更時は時間を要するものの容易に修正できる」と評した。りんなの音声合成は女性らしさを意識してか、なめらかな発声を行うが、同映画では場面を考慮して、「発話速度を調整して、緊迫感を与えている」(沢田氏)という。
東映 映画宣伝部の三橋剛氏
rinnaと東映のコラボレーションに合わせて、キャラクター診断コンテンツ「ゼロワン診断」がりんなのテキストチャットで提供される。通常は質問と回答の流れを作るツリー構造を作成しなければならなかったリコメンド機能を、推奨する商品と属性を用意するとAIが学習し、最適な商品をお薦めするチャットコーマスプラットフォーム「Q20」を採用した。「(映画に関わる)14種類のキャラクターデータを学習し、呼びかける度に質問の順番が変化する」(坪井氏)
rinnaの直接部門となるビジネス部門は、キャラクターソリューションとマーケティングソリューションを主軸にB2B事業を展開。今後はB to C事業も検討している。