E・マスク氏肝いりの「Grok 3」、発表からわずか1日で「脱獄」される

Radhika Rajkumar (ZDNET.com) 翻訳校正: 緒方亮 長谷睦 (ガリレオ)

2025-02-21 10:49

 Elon Musk氏率いるxAIの最新モデル「Grok 3」が、公開からわずか1日でジェイルブレイク(脱獄)された。しかもその結果あらわになった問題は、かなり深刻だ。

 セキュリティとAIの安全性が専門で、AIモデルに対するレッドチーム演習を定期的に実施しているAdversa AIが米国時間2月18日、本来は提供すべきではない情報を「Grok 3 Reasoning」(ベータ版)に答えさせることに成功したとするレポートを公開した。Adversa AIのレッドチームは、言語的、対抗的、プログラミング的という3つの手法を用いることで、Grok 3 Reasoningに通常はAIモデルが回答しないように訓練されている事柄についても、回答を得るように仕向けることに成功したという。具体的には、システムプロンプトを公開させる、爆弾の作り方や、身の毛のよだつような遺体処理の方法を回答させる、といったことだ。

 Grok 3 Reasoningを発表した際、xAIの最高経営責任者(CEO)を務めるElon Musk氏はこのAIモデルが「Grok 2とはケタ違いの能力を持つ」と主張した。Adversaのレポートも、Grok 3の出す答えの詳しさが「これまでのどの推論モデルにもない」水準にあると認めている。だが、今回指摘された文脈においては、それがむしろ懸念すべき点となっている。

 Adversa AIのCEOを務めるAlex Polyakov氏は、米ZDNETへのメールで、セキュリティを危うくするのは、Grokが「実行可能な」説明を提供する点だと説明した(「DeepSeek」も、時に同様のことをするという)。

 「車のエンジンについて『このように機能する』と説明するのと『ゼロから作る方法は次のとおり』と教えることとの違いに似ている」とPolyakov氏は続けた。「通常、OpenAIやAnthropicのモデルのような、強力なセーフガードを備えたモデルを脱獄させても、そうして得た回答は詳細が濁されていて、実際の図面というより、曖昧な概要のようなものになることが多い」

 Adversa AIはレポートの中で、テストが「すべてを網羅した」ものでなかったことを認める一方で、Grok 3の安心と安全を確保するためのガードレールはいまだに「非常に弱い」もので「あらゆる脱獄手法が成功して、あらゆるリスクが現実になった」と結論づけている。

 Grokは設計上、競合するモデルよりもガードレールが少ない。これはMusk氏自身が喜んでいる特徴だ(2023年にGrokを発表した当時の資料にも、Grokが「他の大半のAIシステムでは拒否されるような際どい質問にも回答する」との一節がある)。また2024年には、ノースウェスタン大学の機械知能安全推進センター(CASMI)が声明を出し、当時の米大統領選でGrokが拡散した誤情報に触れて、「政治に関するクエリーについて強力なガードレールを実装したGoogleやOpenAIと異なり、Grokはそのような制約がない設計だった」と指摘している(xAIは5州で選挙当局に促されたのち、Grokを更新する形で、この問題に対処した)。

提供:J Studios/Getty Images
提供:J Studios/Getty Images

この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]