グーグルの「Cloud Text-to-Speech」と「Cloud Speech-to-Text」がアップデート

Stephanie Condon (ZDNet.com) 翻訳校正: 編集部 2019年02月25日 12時36分

  • このエントリーをはてなブックマークに追加
  • 印刷

 Googleは米国時間2月21日、テキストを音声に変換する「Google Cloud Text-to-Speech」サービスでより多くの音声および言語を利用できるようにしたと発表した。また音声をテキストに変換する「Google Cloud Speech-to-Text」サービスの品質向上を図るとともに、複数の機能について一般提供に移行したことも発表した。これらのアップデートによって、膨大な数の人々が利用でき、より効率的に機能するインテリジェントな音声アプリケーションの開発が支援されるはずだ。

 Text-to-Speechでは、利用可能な音声の数が、2018年8月に実施された直近のアップデートに比べてほぼ倍増している。また、新たな言語/方言が7つ追加され(すべてベータ版)、サポートされている言語の総数は21となった。

 さらに、新たに追加されたこれら言語向けに、31の「WaveNet」音声と24の標準音声が追加された。Googleによると、現在サポートしている音声の数はこれで106になったという。

 WaveNetはディープニューラルネットワーク(DNN)を用いて生の音声を合成する、DeepMindの技術。WaveNetを用いることで、標準的なテキスト音声合成技術を用いる場合よりも自然な音声を合成できる。

 Googleの製品マネージャーであるDan Aharon氏は同社ブログに、「当社の『Cloud TPU』を活用したWaveNetテクノロジの利用により、業界の一般的な水準に比べると、より迅速かつ容易に新たな音声や言語のサポートを実現できる」と記している。

 Text-to-Speechでデバイスプロファイルを設定する機能についても一般提供が開始された。同機能により顧客は、ポッドキャストのようなメディアアプリケーション向けのヘッドフォンなど、ハードウェアのタイプに応じて再生音声を最適化できるようになる。

 また、Speech-to-Textについては、2018年にベータ版をロールアウトしていた「video model」と「enhanced phone model」という、標準レートよりも費用の高いプレミアムモデルの一般提供も開始された。Googleの発表によると、video modelは、「YouTube」の自動字幕機能で採用されているものとよく似たテクノロジに基づいており、以前よりも識別エラーが64%減少しているという。またenhanced phone modelも識別エラーが62%減少している。

 これらモデルの品質向上は、同社がプレミアムサービスを利用する顧客に対して、データロギングを通じた利用データの共有を求めることで可能になった。enhanced phone modelは同日から、データ共有をオプトインしなくても利用できるようになったが、オプトインした顧客には割引価格が適用される。また、video modelの顧客すべてに対する価格も引き下げられ、データ共有をオプトインした場合にはさらなる割引きが適用される。

 また同社はマルチチャネルの音声認識サービスについても一般提供の開始を発表した。同サービスにより、Speech-to-TextのAPIは複数の音声チャネルを区別できるようになる。これは複数の話者が登場するシナリオで有効なものとなる。

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

  • このエントリーをはてなブックマークに追加

SpecialPR

連載

CIO
教育IT“本格始動”
月刊 Windows 10移行の心・技・体
ITアナリストが知る日本企業の「ITの盲点」
シェアリングエコノミーの衝撃
デジタル“失敗学”
コンサルティング現場のカラクリ
Rethink Internet:インターネット再考
インシデントをもたらすヒューマンエラー
トランザクションの今昔物語
エリック松永のデジタルIQ道場
研究現場から見たAI
Fintechの正体
米ZDNet編集長Larryの独り言
大木豊成「仕事で使うアップルのトリセツ」
山本雅史「ハードから読み解くITトレンド放談」
田中克己「展望2020年のIT企業」
松岡功「一言もの申す」
松岡功「今週の明言」
内山悟志「IT部門はどこに向かうのか」
林 雅之「デジタル未来からの手紙」
谷川耕一「エンプラITならこれは知っとけ」
大河原克行「エンプラ徒然」
内製化とユーザー体験の関係
「プロジェクトマネジメント」の解き方
ITは「ひみつ道具」の夢を見る
セキュリティ
セキュリティインシデント対応の現場
エンドポイントセキュリティの4つの「基礎」
企業セキュリティの歩き方
サイバーセキュリティ未来考
ネットワークセキュリティの要諦
セキュリティの論点
スペシャル
エンタープライズAIの隆盛
インシュアテックで変わる保険業界
顧客は勝手に育たない--MAツール導入の心得
「ひとり情シス」の本当のところ
ざっくり解決!SNS担当者お悩み相談室
生産性向上に効くビジネスITツール最前線
ざっくりわかるSNSマーケティング入門
課題解決のためのUI/UX
誰もが開発者になる時代 ~業務システム開発の現場を行く~
「Windows 10」法人導入の手引き
ソフトウェア開発パラダイムの進化
エンタープライズトレンド
10の事情
座談会@ZDNet
Dr.津田のクラウドトップガン対談
Gartner Symposium
IBM World of Watson
de:code
Sapphire Now
VMworld
Microsoft Inspire
Microsoft Connect()
HPE Discover
Oracle OpenWorld
Dell Technologies World
AWS re:Invent
AWS Summit
PTC LiveWorx
吉田行男「より賢く活用するためのOSS最新動向」
古賀政純「Dockerがもたらすビジネス変革」
中国ビジネス四方山話
ベトナムでビジネス
日本株展望
企業決算
このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]