Googleは米国時間3月17日、発話された内容をほぼリアルタイムで翻訳して文字にする機能を「Google翻訳」に追加すると発表した。
同社は、人工知能(AI)を活用するこの新機能を1月に発表していた。今回、英語、フランス語、ドイツ語、ヒンディー語、ポルトガル語、ロシア語、スペイン語、タイ語の8言語を対象に、「Android」搭載端末向けに今後数日かけて提供していく。
この機能は、連続して話される音声をその場で翻訳し、その結果をテキストとして表示していくというもの。
Googleの説明によると同アプリはこれまで、長い時間の発話、例えば会議の場での議論や、講義、話の語りに対応していなかったという。
この機能を利用するには、まずAndroid端末でGoogle翻訳アプリのアップデートをインストールする。そして同アプリのホーム画面で「Transcribe」(文字起こし)オプションを選択。ドロップダウンメニューから元の言語と翻訳先の言語を選び、マイクのアイコンをタップする。
同機能を支えている機械学習(ML)技術は、Googleが過去にAndroidの「音声文字変換(Live Transcribe)」というアクセシビリティー機能で培ってきた成果をベースにしている。音声文字変換は、耳の不自由なユーザーにリアルタイムでの文字起こしを提供するサービスだ。なお、今回提供される新機能は音声文字変換と同様に、「Google Cloud」とそのTPU(Tensor Processing Unit)の力によって実現されているため、音声認識機能自体がユーザーの端末上で実行されるわけではない。
また音声文字変換は、「YouTube」の動画や「Googleスライド」のプレゼンテーションで字幕を自動生成するために用いられている自動音声認識技術と同じものをベースにしている。
Googleの広報担当者が述べているように、同社のエンジニアによってリアルタイムの自動音声認識システム上に機械翻訳機能が構築された結果、このシステムは発話の継続とともに、その内容を認識し、新たな翻訳を生成していけるようになったという。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。