Googleは米国時間8月14日、「Cloud Speech API」のアップデートを発表した。最新版では、エンタープライズ顧客のニーズを満たすために構築した機能が加わっている。Cloud Speech APIは当初、Googleが社内で利用するために開発した技術だが、最新版で加わった新しい機能は製品として成熟しつつあることを示している。
Google CloudプロダクトマネージャーのDan Aharon氏は、「当社は10年以上、音声認識技術に取り組んできた。20年近くと言って良い。だが、これまではGoogleの製品を改善し、Googleユーザー向けにより素晴らしい体験を構築することが主な目的だった。そして昨年、事情が変わった。クラウドの取り組みに関して少し強化し始めた。そして、サードパーティー企業が機械学習を活用できるよう支援したいと考えた」と説明している。
Googleは、同社の製品で使っているのと同じ最先端の技術を顧客が活用できるという、Cloud Platform全体の価値提案を示してきた。
2016年にCloud Speech APIがベータリリースされた際には、自社のツールを他社に提供できるクラウドベンダーとしてのGoogleのプロセスの第一段階を提示した形となっていた。「われわれは現在、当社のクラウド顧客が何を必要としているのかをみており、そのニーズをサポートし、より優れた製品を構築するための研究開発を行なっている」とAharon氏は述べた。
Cloud Speech APIの最新版では、より長時間の音声に対応している。これまでは80分が最長だったが、最大3時間の音声ファイルをサポートするようになった。3時間以上のファイルは申請することで、個別に対応されるという。
また、最も要求が多かったという単語レベルのタイムスタンプ機能も追加されている。単語レベルのタイムスタンプを利用して、ユーザーはファイルの中で探しているまさにその場所に移動できる。これは音声を書き起こすサービスなどで便利な機能と言える。
このほかにも、30種類の言語と方言のサポートが追加され、すでにサポートしている89種に加わる。新たにベンガル語、ラトビア語、スワヒリ語などに対応し、10億人以上をカバーする。
Aharon氏によると、「何千」もの顧客がCloud Speech APIを利用しており、この1年で堅実に成長したという。「このペースで成長すれば、2、3年で非常に大きなものになるだろう」とAharon氏は述べている。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。