OpenAI、「GPT-4 Turbo with Vision」を「OpenAI API」で一般提供

Sabrina Ortiz (ZDNET.com) 翻訳校正: 編集部

2024-04-10 15:12

 OpenAIは、「ChatGPT」や「Copilot」といった最も人気の高いAIチャットボットのいくつかを動作させるのに利用されている高度な大規模言語モデル(LLM)で最も知られている。マルチモーダルモデルは、視覚アプリケーションの新たな範囲を解き放つことでチャットボットの能力を新たな段階に引き上げることができ、OpenAIは一つのモデルを開発者に対して利用可能にした。

 OpenAIは米国時間4月9日、「GPT-4 Turbo with Vision」が「OpenAI API」を通じて開発者に一般提供されたとX(旧Twitter)の投稿で発表した。同モデルは、最新の「GPT-4 Turbo」モデルにビジョン機能を追加したもの。

 この最新モデルでは、GPT-4 Turboの12万8000トークンウィンドウと2023年12月までの知識という制限に変わりはない。主な違いはビジョン機能で、画像やビジュアルコンテンツの理解が可能になっている。

 GPT-4 Turbo with Visionが利用可能になる前は、開発者はテキストと画像のために別々のモデルを呼び出す必要があった。現在、開発者は、両方に対応する一つのモデルを呼び出すだけでよく、プロセスを簡略化し、幅広いユースケースに向けて扉を開くことができる。

 OpenAIは、開発者が同モデルを使用している方法の一部を紹介しており、それらは非常に魅力的だ。

 例えば、AIソフトウェアエンジニアリングアシスタントのDevinさんは、コーディングのよりよい支援を目的にGPT-4 Turbo with Visionを使っている。健康・フィットネスアプリ「Healthify」では、GPT-4 Turbo with Visionを使って、ユーザーの食事の写真をスキャンし、写真認識を通じて栄養に関するインサイトを提供している。最後にMake Realでは、GPT-4 Turbo with Visionを使ってユーザーの描いた絵を実際に動作可能なウェブサイトに変換している。


 GPT-4 Turbo with Visionモデルは、ChatGPT内部でも一般に向けて提供されていないが、OpenAIは、ChatGPTでもまもなく利用可能になることを明らかにしている。GPT-4 Turbo with Vision APIを使ってみたい開発者は、こちらでどのようにすればよいか知ることができる。

この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

注目している大規模言語モデル(LLM)を教えてください

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]