海外コメンタリー

グーグル「VLOGGER」の可能性--画像からリアルな動画アバターを生成するAIツール

Tiernan Ray (Special to ZDNET.com) 翻訳校正: 川村インターナショナル

2024-03-29 07:30

 人工知能(AI)コミュニティーは、偽の動画を作成するのが非常に得意になった(たとえば、2月に発表されたOpenAIの「Sora」は、滑らかな架空の空撮動画とともに公開された)。そのため、理知的かつ現実的な疑問を禁じ得ない。こうした動画をどうすべきなのだろうか。

VLOGGERは、1枚の人物画像から高品質の動画を作成することができる。その長さはさまざまで、顔の表情や身体の動きを瞬きに至るまで正確に表現でき、品質は過去の「人物画像に話をさせる」タイプのソフトウェアを上回っている。提供:Google
VLOGGERは、1枚の人物画像から高品質の動画を作成することができる。その長さはさまざまで、顔の表情や身体の動きを瞬きに至るまで正確に表現でき、品質は過去の「人物画像に話をさせる」タイプのソフトウェアを上回っている。
提供:Google

 Googleの研究者であるEnric Corona氏と同僚らが先週、この疑問に答えている。同社の「VLOGGER」ツールを使用して制御すればいいのだという。VLOGGERは、話をする人物の高解像度動画を1枚の写真から生成することができる。さらに重要なのは、動画を音声サンプルに基づいてアニメーション化できることだ。言い換えると、ある人物の制御可能な肖像、すなわち高忠実度の「アバター」として、動画をアニメーション化することができる。

 VLOGGERにより、あらゆる種類の創作が可能になるかもしれない。Corona氏のチームは、最も単純なレベルでは、ヘルプデスクのアバターに大きな影響を与える可能性があると示唆している。リアルに合成された人間が話す動画は「共感を育む」ことができるからだという。同チームは、この技術が「オンラインコミュニケーション、教育、パーソナライズされたバーチャルアシスタントの強化など、全く新しいユースケースを実現する」可能性があるとしている。

 VLOGGERは、本物そっくりの画像に実際の人物が絶対にしない言動をさせるディープフェイクの新境地を開拓してしまうおそれもある。Corona氏のチームは、VLOGGERの社会的影響についての考察を補足資料で提示する意向だ。しかし、その資料は同プロジェクトの「GitHub」ページでは公開されていない。米ZDNETはその補足資料についてCorona氏に問い合わせたが、本稿執筆時点で回答は得られなかった。

 公式論文「VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis」で説明されているように、Corona氏のチームの目標は最先端のアバターの不正確さを克服することだ。「人間のリアルな動画の生成はやはり複雑で、大量のアーティファクトを発生する」とCorona氏のチームは記している。

 同チームによると、既存の動画アバターは身体と手を切り取って、顔だけを表示することが多いという。VLOGGERは、胴全体を手の動きとともに表示することができる。他のツールは通常、顔の表情やポーズの種類が限られており、基本的な口の動きを合わせるだけだ。VLOGGERは、「顔と上半身の動き、(中略)非常に多様な顔の表情やジェスチャーが特徴の高解像度動画」を生成でき、「音声入力に基づいて話したり動いたりする人間を生成する初のアプローチ」とされている。

 研究チームは次のように説明した。「自動化とリアルな動きこそが、この研究で目指しているものだ。VLOGGERは擬人化された会話エージェントへのマルチモーダルインターフェースであり、音声とアニメーションによる視覚表現の機能を備え、複雑な顔の表情やより高度な身体の動きを特徴として、人間のユーザーとの自然な会話をサポートすることを目的としている」

VLOGGERソフトウェアは1枚の写真(左)を基に、「拡散」として知られるプロセスを使用して、誰かが話している音声ファイルの各時点に対応する動画フレーム(右)を予測し、それらの動画フレームを高解像度品質で生成する。提供:Google
VLOGGERソフトウェアは1枚の写真(左)を基に、「拡散」として知られるプロセスを使用して、誰かが話している音声ファイルの各時点に対応する動画フレーム(右)を予測し、それらの動画フレームを高解像度品質で生成する。
提供:Google

 VLOGGERは、ディープラーニングにおける最近の複数のトレンドを組み合わせている。

 マルチモダリティーは、テキストと音声、画像と動画など、AIツールが取り込んで合成できる多数のモードを統合することだ。

 OpenAIの「GPT-4」などの大規模言語モデルは、自然言語を入力として使用し、テキストの段落、歌、画像の作成など、さまざまな種類のアクションを駆動することができる。

 研究者らは近年、「拡散」を改良することで、実物そっくりの画像や動画を作成する方法も発見した。拡散という用語は分子物理学に由来し、特定の領域に高濃度で存在している物質の粒子が、温度が上昇するにつれて、外へ広がっていくことを指す。同様に、デジタル情報のビットも、デジタルノイズによって一貫性がなくなるほど、「拡散する」とみなすことができる。

 AIの拡散は、画像にノイズを加えて元の画像を再構築することで、ニューラルネットワークを訓練し、画像の構築に用いられたルールを見つけ出せるようにする。拡散は、Stability AIの「Stable Diffusion」やOpenAIの「DALL·E」の印象的な画像生成プロセスの根幹を成す技術だ。OpenAIがSoraの滑らかな動画を作成するために使っている技術でもある。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

注目している大規模言語モデル(LLM)を教えてください

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]