音声・ビデオ通話データと翻訳AIなどの連携キットを無償公開--NTT Com

渡邉利和

2019-01-23 11:16

 NTTコミュニケーションズは1月23日、「Enterprise Cloud WebRTC Platform SkyWay(SkyWay)」の音声・映像データをさまざまなクラウドサービスとリアルタイムに連携できるSkyWay簡単機能拡張キット「Media Pipeline Factory」を開発し、同日付で無償トライアルの提供を開始した。

 SkyWayは、WebRTC(Web Real-Time Communication)の活用推進や開発者支援を目的として、同社が提供するサービス。WebRTCを使った音声・ビデオ通話に必要なサーバ群を同社が運用し、アプリケーション開発のためのソフトウェア開発環境(SDK)を提供することで、開発者が音声・ビデオ処理の中核部分に専念できるようにする。

SkyWay簡単機能拡張キット「Media Pipeline Factory」のイメージ
SkyWay簡単機能拡張キット「Media Pipeline Factory」のイメージ

 説明を行った技術開発部 Webコアテクニカルユニットリーダー/担当課長の大津谷亮祐氏は、WebRTCについて「“総合格闘技問題”と言われるほど、関連する広範な技術知識を身につけていないと使いこなせないもの」だと指摘した上で、SkyWayが「世界中のエンジニアのためにWebRTCのめんどくさいことを引き受ける」というコンセプトで提供していると語った。なおSkyWayは、2013年12月に無償トライアルが開始され、2017年9月に正式サービスが開始されている。

 その後、SkyWayでは段階的に新機能が追加されている。当初のSkyWayでは、ウェブブラウザ、iOS、Androidの3プラットフォーム向けのSDKが用意されるのみだったが、2018年6月に「WebRTC Gateway」が追加され、IoT機器、組み込み機器、家電、監視カメラ、ロボットといった広範なデバイスでWebRTCの活用がサポートされるようになった。次いで、今回のMedia Pipeline Factoryの追加により、従来のSkyWayの課題とされていた「クラウドに映像・音声を送信し、録音・録画したり、AI(人工知能)で処理したりすることができない」という点が解消された形だ。

 従来のSkyWayは、基本的にはウェブブラウザやスマートフォン、IoT機器で利用するためのネイティブアプリケーションの開発支援を企図した環境であり、アプリケーションの処理は基本的に端末側で行われるようになっていた。Media Pipeline Factoryでは、端末から送信される音声・映像データをクラウド側で受け取り、さらにこのデータに対して任意の処理を行うための“パイプライン”を、任意のクラウドサービスの組み合わせとして実現するためのビジュアル開発環境も提供する。

GUI開発環境のイメージ。環境上に用意された各種コンポーネント(外部クラウドで提供されるAPIやローカルで用意されたビルトインコンポーネント、ユーザーが独自開発したカスタムコンポーネントなど)がアイコンとして表示され、データの流れに沿って並べるだけで順次加工されていく。図の例では、最初に置かれている“WebRTC gateway”が端末からのデータストリームの受け口となる必須コンポーネントで、これ以降に必要な処理を並べていく。まず上段ではビルトインコンポーネントである“Filewriter”で受け取ったデータストリームをそのままファイルに書き出し、保存する一方、同じデータストリームを下段に分岐させて、Google Speech APIの音声認識機能でテキストデータに変換し、次いで日英翻訳機能を使って英語にし、ビルトインコンポーネントのDbwriterを介してデータベース(Amazon DynamoDB)に保存する、というフローをマウス操作だけで完成させた
GUI開発環境のイメージ。環境上に用意された各種コンポーネント(外部クラウドで提供されるAPIやローカルで用意されたビルトインコンポーネント、ユーザーが独自開発したカスタムコンポーネントなど)がアイコンとして表示され、データの流れに沿って並べるだけで順次加工されていく。図の例では、最初に置かれている“WebRTC gateway”が端末からのデータストリームの受け口となる必須コンポーネントで、これ以降に必要な処理を並べていく。まず上段ではビルトインコンポーネントである“Filewriter”で受け取ったデータストリームをそのままファイルに書き出し、保存する一方、同じデータストリームを下段に分岐させて、Google Speech APIの音声認識機能でテキストデータに変換し、次いで日英翻訳機能を使って英語にし、ビルトインコンポーネントのDbwriterを介してデータベース(Amazon DynamoDB)に保存する、というフローをマウス操作だけで完成させた

 当初用意されるコンポーネントは、同社が提供する「COTOHA API」「COTOHA Translator」と、Google Cloud Platformで提供される「Speech API」「Translation API」の4種で、これらのAPI機能を利用した処理であれば、コーディングレスでコンポーネントをグラフィカルユーザーインターフェース(GUI)環境でつなぎ合わせたパイプラインを設計するだけで、必要な処理を実現できる。

 この他に、特定処理のためのビルトインコンポーネントとして「Filewriter」「Reognizer」「Translator」「Logger」「Dbwriter」「Publisher」の6種も準備されている。プラットフォームはサーバレスアーキテクチャで実現されており、各コンポーネントはそれぞれ独立したコンテナで動作する。負荷の増大に応じた処理能力の拡大などはプラットフォーム側で自動的に対応されるため、利用者側は処理のロジック設計のみを行えばよい。

 Media Pipeline Factoryの正式サービス化については現時点では未定というものの、「SkyWayが4年で正式サービス化に至っているので、Media Pipeline Factoryの正式サービス化はそれよりも短い期間になればと期待している」(大津谷氏)という。

NTTコミュニケーションズ 技術開発部 Webコアテクニカルユニットリーダー/担当課長の大津谷亮祐氏
NTTコミュニケーションズ 技術開発部 Webコアテクニカルユニットリーダー/担当課長の大津谷亮祐氏

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

注目している大規模言語モデル(LLM)を教えてください

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]