OpenAIの開発者向け年次イベント「OpenAI DevDay」が米国時間10月2日にサンフランシスコで開催され、多くの製品と機能が発表された。今回の目玉は、リアルタイムのアプリケーションプログラミングインターフェース(API)の導入だった。
この開発者向け機能によって、推論オペレーションの実施中、すなわち、プロダクション大規模言語モデル(LLM)で予測をしている最中に、音声言語による入出力の送受信が可能になる。こうしたタイプの情報のやり取りを導入することで、人間と言語モデルの間の会話が、より滑らかでリアルタイムなものになることが期待されている。
ただし、この機能を使うにはかなりの追加料金がかかる。リアルタイムAPIのベースとなるモデルは、大規模言語モデル「GPT-4o」となるが、OpenAIの現行料金では、このモデルの料金は100万トークンあたり入力テキストで2.50ドル、出力テキストで10ドルに設定されている。
一方、リアルタイムの入出力では、少なくともこの2倍の料金がかかる。リアルタイムAPIを使う場合、GPT-4oへのテキストでの入出力は、100万トークンあたり、入力に5ドル、出力に20ドルがかかる。
DevDayでは多くのイベントが予定されている。
提供:OpenAI
また、音声トークンを使うことも可能だが、この場合は100万トークンあたりのコストが入力で100ドル、出力で200ドルに跳ね上がる。
OpenAIによると、音声会話の標準的な統計値で計算した場合、音声トークンの料金は「音声入力が1分あたり約0.06ドル、音声出力が1分あたり約0.24ドルに相当する」という。
OpenAIが提示した、リアルタイムAPI機能呼び出しの料金表(GPT-4o大規模言語モデルで推論を使用した場合)。
提供:OpenAI
OpenAIでは、生成AIにおけるリアルタイム音声の活用例をいくつか挙げている。例えば、人にアドバイスを与えるオートメーション化されたヘルスコーチ、新たな言語を練習したい学生と会話ができる語学チューターなどで活用できるという。
他にも、この年次会議で、OpenAIはプロンプトキャッシングの手法で開発者が負担するコストの総額を削減する方法を提示した。これは以前にモデルに送信された入力トークンを再利用する手法だ。このアプローチによって、GPT-4oの入力テキストトークンのコストを50%削減できるという。
提供:Jakub Porzycki/NurPhoto via Getty Images
この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。