2021年の創業以来、Anthropicは「Claude」モデルによって急速に主要なAI企業の1つとなり、OpenAI、Google、Microsoftにとって手ごわい競合となっている。この勢いに乗り、同社は米国時間5月22日に初の開発者会議「Code with Claude」を開催し、これまでの取り組みと今後の展望を披露した。
Anthropicはこのイベントで、大いに期待されていた2つのモデル「Claude Opus 4」と「Claude Sonnet 4」を発表した。両モデルともに、先行モデルに比べてコーディングと推論の性能が向上している。さらに、同社はユーザー体験を向上させるための新機能とツールをモデル向けに投入した。
Claude Opus 4
Claude Opusファミリーは、同社が提供するAIモデルの中で最も高度かつ高機能であり、複雑なタスク向けに設計されてきた。「Claude Opus 3」はすでに非常に有能なモデルとして評価されていたが、最新世代ではその能力がさらに高まった。Anthropicは、同モデルをこれまでで最も強力なモデルであり、世界最高のコーディングモデルであると述べている。このことは、SWE-benchの結果(後述)によって裏付けられている。
Anthropicによると、Opus 4は数千ものステップを要する複雑で長時間実行されるタスクにおいて、持続的なパフォーマンスを発揮するように構築されており、すべての「Claude Sonnet」モデルを大幅に上回る性能だという。最大の目玉の1つは、モデルが数時間にわたって自律的に動作できる点であり、これによりOpus 4はAIアシスタンスの次の段階とされるAIエージェントの動力源として優れたモデルとなる。
AIエージェントの魅力は、人間の介入なしにタスクを実行できる点にある。これを実現するには、次に必要なステップ、例えばどのツールを使用し、どのような行動を取るべきかを、エージェント自身が推論する必要がある。そのため、エージェントにはOpus 4のように、優れた推論能力を持ち、その推論を持続できるモデルが不可欠となる。
Claude Sonnet 4

提供:Anthropic
Claude Sonnetファミリーの次世代モデルであるSonnet 4は、先行モデルの特徴である「非常に有能でありながら実用的なモデル」という点を維持しており、多くのユーザーのニーズに適応する。Sonnet 4は、「Claude Sonnet 3.7」の機能を基盤とし、ステアビリティー(操縦性や操作性:モデルがユーザーの指示や目標に従ってどれだけ正確に応答できるかを表す用語)が向上している。チャットボットにおいては、Sonnet 3.7の代替としてそのまま利用可能だろう。
Claudeのその他の改善点
ベータ版で利用可能な新機能により、Opus 4とSonnet 4は、長時間の思考とツール利用を切り替えられるようになった。これにより、ユーザーは速度と精度を両立させた全体的なパフォーマンスを体験できる。Anthropicによると、Claudeはツールを並行して呼び出すことも可能であり、これは目の前のタスクを適切に実行するために、複数のツールを順番に、あるいは同時に呼び出せる。
開発者がClaudeにローカルファイルへのアクセスを許可すると、主要な洞察を含む「メモリーファイル」を作成・維持できるようになる。これにより、Anthropicによると、「エージェントタスクにおける長期的なタスク認識、一貫性、パフォーマンスが向上する」という。さらに、開発者は「Anthropic API」を通じて、コード実行ツール、MCPコネクター、Files API、最大1時間サポートされるプロンプトキャッシュなど、より強力なエージェントを構築するための新たな機能を利用できるようになった。
両モデルのもう1つの改善点は、Sonnet 3.7と比較して報酬ハッキング(モデルがタスクを完了するために近道をする挙動)が65%削減されたことである。これは、特にこの問題が頻繁に発生するエージェントのコーディングタスクにおいて顕著となる。
また、新しい思考要約機能により、ユーザーはモデルの思考プロセスをより深く理解できるようになる。これは、思考プロセスが長くなる場合に、モデルの推論をそのままの形で表示するのではなく、理解しやすい要約として提示する機能である。
Anthropicによると、モデルの思考プロセスのほとんどは短いため、全体を表示しても問題はない。そのため、思考の要約が必要になるのは約5%の時間に限られるという。モデルがどのように結論に至ったかを理解することで、ユーザーはその正確性を確認し、思考プロセスにおける不足点を見つけ出し、場合によっては自力で答えを導き出す方法を学ぶことも可能になるだろう。
同社はまた、「ASL-3」などのより高いAI安全レベルへのモデル対応や、顧客が画期的な機能に迅速にアクセスできるよう、より頻繁なモデルアップデートの提供など、将来の計画を発表した。
ベンチマーク
他のモデルリリースと同様に、Opus 4とSonnet 4もベンチマーク結果が明らかにされている。両モデルは、「SWE-bench verified」で「OpenAI Codex-1」「OpenAI o3」「GPT-4.1」「Gemini 2.5 Pro」といったコーディング領域の主要なモデルの幾つかを上回る性能を示した。

提供:Anthropic
コーディング以外でも、Opus 4とSonnet 4は、大学院レベルの推論をテストする「GPQA Diamond」、高校の数学競技レベルをテストする「AIME 2025」、多言語タスクをテストする「MMMLU」といった他の従来のベンチマークにおいても競争力のあるパフォーマンスを示し、カテゴリーをリードするか、それに近い結果を出している。

※クリックすると拡大画像が見られます
提供状況
Opus 4とSonnet 4はハイブリッドモデルであり、即座に反応するモードと、より詳細な分析を要する要求に対応する拡張推論モードを備えている。Pro、Max、Team、Enterpriseといった有料プランのユーザーは、両モデルと拡張思考機能を利用できる。なお、Sonnet 4は無料ユーザーも利用可能である。
開発者は、Anthropic API、「Amazon Bedrock」「Vertex AI」で両モデルを利用できる。価格については以前のモデルと変更がないとしている。
Claude Code
Claude Codeにより、開発者はClaudeのコーディングアシスタントを、コード記述や管理を行う場所、例えばターミナルや統合開発環境(IDE)内、あるいは「Claude Code SDK」を用いたバックグラウンド実行といった形で直接利用できるようになる。具体的には、「Visual Studio Code」と「JetBrains」向けの新しいベータ版拡張機能を利用することで、ユーザーはClaude CodeをこれらのIDEに統合し、Claudeが提案する編集内容をインラインで表示可能となる。
Claude Code SDKは、ユーザーがClaude Codeと同じ「コアエージェント」の技術基盤を利用して、独自のAI搭載ツールやエージェントを開発できるようにするものである。これにより、ユーザーはClaude Codeが提供するのと同レベルの支援を、自作のツールやエージェントでも得られるようになる。
例として、Anthropicは「GitHub」上でClaude Codeのベータ版を公開している。これにより、ユーザーはプルリクエスト(PR)上でClaude Codeを呼び出し、エラーの修正や、レビュー担当者からのフィードバックへの対応などで支援を受けることができる。

提供:Anthropic
この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。