OpenAI、リアルタイムAPIをプレミアム料金で提供へ--音声でのやり取りも可

Tiernan Ray (Special to ZDNET.com) 翻訳校正: 緒方亮 長谷睦 (ガリレオ)

2024-10-04 10:33

 OpenAIの開発者向け年次イベント「OpenAI DevDay」が米国時間10月2日にサンフランシスコで開催され、多くの製品と機能が発表された。今回の目玉は、リアルタイムのアプリケーションプログラミングインターフェース(API)の導入だった。

 この開発者向け機能によって、推論オペレーションの実施中、すなわち、プロダクション大規模言語モデル(LLM)で予測をしている最中に、音声言語による入出力の送受信が可能になる。こうしたタイプの情報のやり取りを導入することで、人間と言語モデルの間の会話が、より滑らかでリアルタイムなものになることが期待されている。

 ただし、この機能を使うにはかなりの追加料金がかかる。リアルタイムAPIのベースとなるモデルは、大規模言語モデル「GPT-4o」となるが、OpenAIの現行料金では、このモデルの料金は100万トークンあたり入力テキストで2.50ドル、出力テキストで10ドルに設定されている。

 一方、リアルタイムの入出力では、少なくともこの2倍の料金がかかる。リアルタイムAPIを使う場合、GPT-4oへのテキストでの入出力は、100万トークンあたり、入力に5ドル、出力に20ドルがかかる。

DevDayでは多くのイベントが予定されている。提供:OpenAI
DevDayでは多くのイベントが予定されている。
提供:OpenAI

 また、音声トークンを使うことも可能だが、この場合は100万トークンあたりのコストが入力で100ドル、出力で200ドルに跳ね上がる。

 OpenAIによると、音声会話の標準的な統計値で計算した場合、音声トークンの料金は「音声入力が1分あたり約0.06ドル、音声出力が1分あたり約0.24ドルに相当する」という。

OpenAIが提示した、リアルタイムAPI機能呼び出しの料金表(GPT-4o大規模言語モデルで推論を使用した場合)。提供:OpenAI
OpenAIが提示した、リアルタイムAPI機能呼び出しの料金表(GPT-4o大規模言語モデルで推論を使用した場合)。
提供:OpenAI

 OpenAIでは、生成AIにおけるリアルタイム音声の活用例をいくつか挙げている。例えば、人にアドバイスを与えるオートメーション化されたヘルスコーチ、新たな言語を練習したい学生と会話ができる語学チューターなどで活用できるという。

 他にも、この年次会議で、OpenAIはプロンプトキャッシングの手法で開発者が負担するコストの総額を削減する方法を提示した。これは以前にモデルに送信された入力トークンを再利用する手法だ。このアプローチによって、GPT-4oの入力テキストトークンのコストを50%削減できるという。

提供:Jakub Porzycki/NurPhoto via Getty Images
提供:Jakub Porzycki/NurPhoto via Getty Images

この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]