「DeepSeek-R1」の真の魅力は、オープンな研究の重要性を強調する素晴らしいエンジニアリングにあると言えます。多くの興味深い問題を提起しているものの、確かなことは、この技術とそれがモデル開発者に与える刺激によって、企業が大きなメリットを得るだろうということです。
1. 卓越したエンジニアリングの成果
DeepSeekチームは、優れたエンジニアリングによって本分野のさまざまなアイデアをさらに発展させ、新たな段階へと引き上げました。同社の技術レポートには、こうしたブレークスルーに関する詳細なインサイトが記されています。いくつかのイノベーションは、「Llama 3.1」と同等の性能を達成し、2023年12月に発表されたコアモデル「DeepSeek-V3」に関するものですが、その他は「DeepSeek-R1」の構築方法に焦点を当てています。
DeepSeek-V3
- FP8混合精度トレーニング:DeepSeekは、8ビット精度の行列演算を活用して処理速度を向上させました。また、結果を正しい精度で蓄積するためのカスタムロジックも実装しています。さらに、WGMMA並列演算子(「ワガママ」と発音)を使用しています。筆者が10代のころに触れた「Pentium MMX」のハック技術と比べると、これははるかに複雑に見えます。
- マルチトークン予測:Metaのフランス研究チームが開発した「複数のトークンを同時に予測する手法」に着想を得て、DeepSeekはこれをさらに発展させ、改良された実装技術を導入しました。
- Mixture-of-Experts(MoE):MoEの基本概念は、人間が特定の作業を行う際に必要な神経回路だけを活性化し、エネルギーを節約する脳の働きに似ています。従来のMoEモデルは、ネットワークを限られた数の「エキスパート」(例えば8つ)に分割し、クエリーごとに1つまたは2つのみを有効化します。DeepSeekは、Microsoft Labs(2022年)が提唱した「共通知識を常に処理するコンポーネントを維持する」というアイデアを取り入れ、より細分化されたアプローチを実現しました。
DeepSeek-R1
- 純粋な強化学習アプローチによる推論:「AlphaGo Zero」が囲碁のルールだけから学習したように、DeepSeekは「DeepSeek-R1-Zero」を構築しました。これは、基本的な報酬モデルから推論方法を学ぶもので、この規模では初の試みです。このコンセプト自体は新しくありませんが、大規模モデルに適用した成功例は前例がありませんでした。研究では、「Aha Moment」とも呼ばれる発見の瞬間が捉えられており、例えばDeepSeek-R1-Zeroが「より長く考えると、より良い答えが得られる」と自ら気付く場面があります(筆者もこれを学ぶ方法を知りたいです)。
- DeepSeek-R1のトレーニングプロセス:モデルは、DeepSeek-V3のデータを活用するという従来の手法も採用しています。ここでは特に画期的な技術は見られませんが、データの綿密な精査と慎重な調整が成功の要因となったことは確かです。
これらの成果は、オープンな研究が人類の進歩に寄与することを示す良い例です。次の興味深いステップとして、Hugging Faceの優秀なチームが既にDeepSeek-R1の再現に取り組んでいることが挙げられます。
2. 多くの疑問を引き起こすが、検証は困難
- 計算コストの総額:DeepSeekは、最終トレーニングに500万ドルの計算コストを費やしたと報告しています。ただし、この金額には研究開発、データ精査、予備トレーニング、その他の関連費用は含まれていません。適切な比較基準としては、「OpenAI o1」の最終トレーニングに費やされたGPU時間が挙げられますが、OpenAIはこれを公開していません。一部の推計では、o1の計算コストは1億ドルに達するとされていますが、透明性がないため、直接の比較は推測の域を出ません。
- 推論コストは27倍も効率的なのか:現時点で、DeepSeek-R1モデルを商用展開しているのはDeepSeekだけです。彼らのAPI料金によると、OpenAI o1 APIよりも推論コストが27倍低いとされています。しかし、この差が技術的な効率性によるものなのか、エネルギーコスト、人件費、価格戦略などの要因によるものなのかは明確ではありません。外部の基準がないため、DeepSeekの効率性の主張が純粋な技術的進歩を反映しているのか、商業的な判断が影響しているのかは判断できません。
- チームの規模:DeepSeekの研究チームの正確な人数は明らかにされていません。世界のAI研究者コミュニティーは比較的小さく、サンフランシスコ、シアトル、ニューヨーク、パリ、ロンドンなどでうわさが飛び交うものですが、DeepSeekの背後にいる人物について詳しく知る人はほとんどいません。この秘密主義は意図的なものなのか、地理的な要因によるものなのか、依然として疑問が残ります。
- 学習データの中身:DeepSeek-R1のトレーニングでは、多くの微調整が行われ、ブートストラップデータの除去や有害コンテンツのフィルタリングが実施されました。これらの過程で、政治的メッセージなどのバイアスが生じる可能性は避けられません。また、DeepSeek-V3やDeepSeek-R1がOpenAIモデルからの知識を取り入れているかどうかも不明です。モデルはオープンウェイトで、技術論文で手法が公開されていますが、トレーニングデータの正確な構成は明らかにされておらず、隠れた影響についての憶測を招いています。