Microsoftは、「Microsoft Cognitive Services」の一部ツールを開発者に公開する準備を整えている。Microsoft Cognitive Servicesは認知サービス向けツールのコレクションであり、20種類以上のツールから構成されている。
同社の「Microsoft Cognitive Services API」を使用することで、開発者は音声認識や言語理解、センチメントの検出といった機能を自らのアプリケーションに組み込めるようになる。
Cognitive Servicesとボットは、Microsoftの人工知能(AI)、より具体的に言えば「プラットフォームとしての会話」戦略を支える2つの柱となっている。同社のCognitive Services APIは「Microsoft Bot Framework」と円滑に連携するよう考慮されているため、ボットが関わるシナリオで特に力を発揮する(ボット関連のシナリオ以外でも使用できる)。このためボットはCognitive Servicesを活用し、スピーチ(発話)や言語、視覚に基づいた行動ができるようになる。
Microsoftは、プライベートプレビュー時点で「Custom Recognition Intelligent Service」(CRIS)と称していた同社のスピーチサービスを「Custom Speech Service」と改称し、パブリックプレビュー版として利用可能にしている。
Microsoftによると、同社は10年以上かけて音声認識アルゴリズムを洗練させてきているため、騒がしい場所での、専門用語や口語、訛りが飛び交う会話にも対応できるという。同社のブログでは、Custom Speech Serviceが活用しているこれらのアルゴリズムについて説明されている。
また同社は米国時間2月7日、「Content Moderator」と「Bing Speech API」の一般提供を3月に開始する予定だと述べた。ユーザーはContent Moderatorを使用することで、画像やテキスト、動画の公開に先立って、該当情報を隔離したうえでレビューできるようになる。Bing Speech APIは、オーディオをテキストに、またテキストをオーディオに変換するためのAPIだ。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。