グーグル「Cloud Text-to-Speech」がGAに--WaveNetの新音声も追加

Stephanie Condon (ZDNET.com) 翻訳校正: 編集部

2018-08-29 11:26

 Google Cloudは米国時間8月28日、「Google Cloud Platform」(GCP)上で動作する、テキストの音声合成サービス「Google Cloud Text-to-Speech API」の一般提供開始を発表した。このAPIを利用することで開発者は、自らの開発するデバイスやアプリケーションに自然な音声を付加できるようになる。また、このAPIは特殊なデバイス向けに最適化した音声を合成する機能も提供している。さらに、新たな「WaveNet」音声が複数追加され、より多くの言語とさまざまな種類の音声がサポートされるようになっている。

 Googleは3月、Text-to-Speechを発表し、DeepMind買収の成果をいかに活用できるのかについて示して見せた。DeepMindは、ディープニューラルネットワーク(DNN)を用いて生の音声を合成するWaveNetという技術を生み出した企業だ。WaveNetを用いることで、標準的なテキスト音声合成技術を用いる場合よりも自然な音声を合成できる。

 Text-to-Speechの発表以来、WaveNet音声ポートフォリオを米国英語以外に拡大することを求める顧客の声が多かったという。今回一般提供が開始されたAPIでは、新たなWaveNet音声として米国英語のほか、英国英語とオーストラリア英語、フランス語、ドイツ語、オランダ語、イタリア語、韓国語、日本語で26の音声がサポートされている。

 Text-to-Speech APIでは、標準音声として用意されているものを含めると、14種類の言語やその方言による56種類の音声がサポートされている。

 Cloud Text-to-Speechの主な競合は、Amazon Web Services(AWS)の「Amazon Polly」だろう。

 またGoogleは、「Audio Profiles」のベータ版の提供も開始した。この機能を利用することで開発者は、電話回線やヘッドホン、スピーカといった特定のハードウェア向けに音声を最適化できるようになる。

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. ビジネスアプリケーション

    生成 AI 「Gemini」活用メリット、職種別・役職別のプロンプトも一挙に紹介

  2. セキュリティ

    まずは“交渉術”を磨くこと!情報セキュリティ担当者の使命を果たすための必須事項とは

  3. セキュリティ

    迫るISMS新規格への移行期限--ISO/IEC27001改訂の意味と求められる対応策とは

  4. セキュリティ

    マンガで分かる「クラウド型WAF」の特徴と仕組み、有効活用するポイントも解説

  5. セキュリティ

    警察把握分だけで年間4000件発生、IPA10大脅威の常連「標的型攻撃」を正しく知る用語集

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]