Google Cloudは米国時間8月28日、「Google Cloud Platform」(GCP)上で動作する、テキストの音声合成サービス「Google Cloud Text-to-Speech API」の一般提供開始を発表した。このAPIを利用することで開発者は、自らの開発するデバイスやアプリケーションに自然な音声を付加できるようになる。また、このAPIは特殊なデバイス向けに最適化した音声を合成する機能も提供している。さらに、新たな「WaveNet」音声が複数追加され、より多くの言語とさまざまな種類の音声がサポートされるようになっている。
Googleは3月、Text-to-Speechを発表し、DeepMind買収の成果をいかに活用できるのかについて示して見せた。DeepMindは、ディープニューラルネットワーク(DNN)を用いて生の音声を合成するWaveNetという技術を生み出した企業だ。WaveNetを用いることで、標準的なテキスト音声合成技術を用いる場合よりも自然な音声を合成できる。
Text-to-Speechの発表以来、WaveNet音声ポートフォリオを米国英語以外に拡大することを求める顧客の声が多かったという。今回一般提供が開始されたAPIでは、新たなWaveNet音声として米国英語のほか、英国英語とオーストラリア英語、フランス語、ドイツ語、オランダ語、イタリア語、韓国語、日本語で26の音声がサポートされている。
Text-to-Speech APIでは、標準音声として用意されているものを含めると、14種類の言語やその方言による56種類の音声がサポートされている。
Cloud Text-to-Speechの主な競合は、Amazon Web Services(AWS)の「Amazon Polly」だろう。
またGoogleは、「Audio Profiles」のベータ版の提供も開始した。この機能を利用することで開発者は、電話回線やヘッドホン、スピーカといった特定のハードウェア向けに音声を最適化できるようになる。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。