Google Cloudがテキスト読み上げサービス「Cloud Text-to-Speech」

Larry Dignan (ZDNET.com) 翻訳校正: 編集部

2018-03-28 11:14

 Googleは米国時間3月27日、「Google Cloud Platform」(GCP)上で動作する、テキストの音声合成サービス「Cloud Text-to-Speech」について発表した。このサービスは、傘下のDeepMindが生の音声を分析するために開発したモデルを利用している。

 これにより開発者らは、「Googleアシスタント」や「Google検索」「Googleマップ」といったサービスで使用されている、テキストを自然な発声で読み上げる技術にアクセスできるようになる。

 GoogleによるとCloud Text-to-Speechは、コールセンターの音声応答システムで活用したり、IoT機器に話をさせたり、テキストベースのメディアを音声形式に変換するといった目的で利用できるという。

 Cloud Text-to-Speechでは、12の言語にわたる32種類の音声が選択肢として用意されている。また、音声のピッチや発話速度、音量、オーディオフォーマットをカスタマイズすることもできる。

 Cloud Text-to-Speechの主な競合は、47種類の音声が用意されている、Amazon Web Services(AWS)の「Amazon Polly」だろう。Pollyもコールセンターやアプリケーションといったユースケースで用いられている。

 Cloud Text-to-Speechの提供により、GoogleがDeepMindのテクノロジをGCP上でどのように活用しようとしているのかも浮き彫りになっている。このサービスでは、DeepMindの「WaveNet」というテクノロジが使用されている。WaveNetは約1年前に、スピーチサンプルによって訓練したニューラルネットワークを用いることで、何もない状態から生の音声波形を作り上げた。

 当時のWaveNetは正確性を追求するために、テキストが入力された際に、サンプルを1つずつ取り込み、何もない状態から音声波形を作り上げていた。

 アップデートされたWaveNetでは、GoogleのCloud TPUインフラで稼働し、以前のモデルより1000倍高速に生の音声波形を生成できるようになった。

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    Pマーク改訂で何が変わり、何をすればいいのか?まずは改訂の概要と企業に求められる対応を理解しよう

  2. セキュリティ

    従来型のセキュリティでは太刀打ちできない「生成AIによるサイバー攻撃」撃退法のススメ

  3. 運用管理

    メールアラートは廃止すべき時が来た! IT運用担当者がゆとりを取り戻す5つの方法

  4. セキュリティ

    2025年はクラウドを標的にする攻撃が増加!?調査レポートに見る、今後警戒すべき攻撃トレンド

  5. セキュリティ

    最も警戒すべきセキュリティ脅威「ランサムウェア」対策として知っておくべきこと

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]