谷歌DeepMind联手浙大推出 Archon:多模态大模型的下一个分水岭,是真正的“数字分身”?
你可能见过能聊天的 GPT-4,用过能生视频的 Sora,或者听过能模仿人声的语音大模型。但你有没有想过:为什么我们至今没有一个“大一统”的模型,能够同时搞定数字人的文本、语音、3D骨骼动画和高画质视频?
在过去,想要制作一个逼真的 AI 播报员或虚拟主播,我们需要像组装乐高一样,把好几个“专家模型”拼起来:先用文本模型写台词,再用 TTS 模型转成语音,接着用动作模型生成嘴型和表情,最后用视频生成模型把它们渲染出来。
这种“缝合怪”式的方案痛点显而易见:信息在不同模型传递时会严重失真,嘴型对不上、声音和表情割裂,而且只要其中一个环节出bug,整个数字人就“秒变惊悚片”。
就在最近,谷歌 DeepMind 与浙江大学 CAD&CG 国家重点实验室等机构联手,发表了一篇极其硬核的论文:《Archon: A Unified Multimodal Model for Holistic Digital Human Generation》(Archon:用于全方位数字人生成的统一多模态模型)。
Archon 的出现,直接打破了传统数字人“各扫门前雪”的拼凑式历史。它是一个真正意义上的原生多模态数字人统一大模型,把数字人所需的 7 大模态(描述、台词、语音、3D动画、语义视频、图像、RGB视频)全部吞进一个模型里,实现了任意模态到任意模态(Any-to-Any)的自由转换与编辑 。
今天,我们就用最通俗、硬核的语言,拆解一下这个数字人领域的“终结者”究竟强在哪里。
核心痛点:为什么以前的统一大模型“做不好”数字人?
为什么像 Gemini、Qwen-Omni 这样的全能选手,在面对“高保真会说话的数字人”时也感到头疼?主要有两个难以逾越的鸿沟:
-
Token 数量大爆炸(算力撑不住):
高质量的数字人视频需要极高的帧率(比如 30 fps)来捕捉细腻的唇动和微表情 。如果直接把一段 5 秒钟、256x256 分辨率的连续视频转化成大模型能懂的“Token(代币/标记)”,会瞬间产生超过 9000个 Token 。这不仅直接挤爆了大模型的上下文窗口,还会导致“视频 Token”严重压倒“语音 Token”,模型训练直接偏科 。 -
多模态之间的“跨度”太大(理解会产生二义性):
从“语音”直接跨越到“高保真视频”,中间有巨大的信息断层 。语音只有一维音频信号,而视频有三维空间和时间。如果让大模型“一步到位”直接盲猜视频细节,往往会导致生成的脸部严重扭曲,或者身份(Identity)前后对不上 。
Archon 的硬核解法一:给视频“骨肉”的语义流重构
为了解决 Token 爆炸的问题,Archon 提出了一个极为聪明的破局思路:把视频拆成“骨架(语义)”和“皮肉(画质)”两部分 。
大模型不需要去死记硬非每一个像素的颜色,Archon 引入了一种内存高效的语义视频参数化方案 :
提取第一帧作为参考图(不变的皮肉):用来锁定数字人的长相、衣服、背景 。
提取 21 个类别的脸部语义分割掩膜(流动的骨架):比如眼皮、眉毛、鼻子、嘴唇的具体运动轨迹 。
这个“骨架视频”保留了最核心的动态结构,却滤掉了冗余的纹理 。大模型只需要在自回归推理时去预测这个语义骨架 。
这一套组合拳下来,Token 数量直接暴跌 4 倍! 5秒钟的视频再也不用担心挤爆大模型了 。最后,Archon 再用一个专门的语义驱动视频扩散模型(Diffusion Decoder),结合参考图和这个语义骨架,把高画质的 RGB 视频“渲染”出来 。
硬核解法二:开启“模态内省”——大模型的“慢思考”
这是本篇论文最惊艳、最具有启发性的创新点:Thinking in Modality(模态内省/多模态思维链) 。
在玩 LLM 时,我们都知道大模型用“Let’s think step by step(一步一步想)”的思维链(CoT)能大幅提升数学和逻辑能力。Archon 把这个概念搬到了多模态数字人生成上 。
如果给它一段音频,让它直接生成高清数字人视频(音频 → \rightarrow → 视频),它可能会“CPU烧了”生成出满是伪影的模糊画面(论文中称为 Vanilla 模式) 。
而在 Thinking 模式下,Archon 会在内心经历一场“模态演变链” :
音频 ⟶ 3DMM动画参数(形状/表情/姿态) ⟶ 语义视频骨架 ⟶ 高清视频渲染 \text{音频} \longrightarrow \text{3DMM动画参数(形状/表情/姿态)} \longrightarrow \text{语义视频骨架} \longrightarrow \text{高清视频渲染} 音频⟶3DMM动画参数(形状/表情/姿态)⟶语义视频骨架⟶高清视频渲染
模型不是一步跳跃,而是利用自己内部集成的 7 大模态 tokenizer,把复杂的跨模态任务分解成一系列连续的、跨度更小的“过渡模态” 。实验证明,这种“中间层思考”能够极大地稳定视频质量,让嘴型对得更准,身份一致性更强 。
统一大模型的威力:“任意编辑”能力
因为 Archon 是在一个统一的语言模型底座(基于 PaLM2 架构)上,用一整个包含 72 种不同子任务的巨型数据集训练出来的 ,所以它天然具备了传统分立模型根本无法企及的灵活性:全空间的任意编辑(Any Modality Editing) 。
你可以对它发出各种“刁钻”的指令,它都能在保持其他要素不变的情况下完美跨模态同步 :
改台词(Script Editing):改动一段文本台词,模型会自动重新生成对应的语音、相匹配的口型以及面部肌肉抽动,而数字人的长相、衣服、声线(Voice Identity)完全没有一丝改变 。
变性别(Attribute Editing):把视频里说话的男人变成女人。这不仅是视觉上的变化,大模型会同时自动把他的声线也改掉,变成匹配这个女性长相的声音,维持极度硬核的跨模态一致性 。
动作重构(Face Reenactment):直接把另一个视频里角色的表情骨骼参数(3DMM)抽出来灌给 Archon,就能无缝驱动目标数字人做出完全一模一样的动作 。
总结:数字人时代的“GPT-3时刻”到了吗?
在各项数字人评测指标(如衡量画质与时序连贯性的 FID、FVD,以及衡量嘴型同步率的评分)中,Archon 作为一款大一统的模型,不仅全面击败了之前的统一模型,其表现甚至能够平替、甚至超越当前那些专门为单项任务量身定做的“专家模型”(如 AniPortrait、EchoMimic 等) 。
Archon 的成功证明了一件事:在数字人领域,通用多模态大模型的路线不仅可行,而且上限极高。
当 3D 骨骼、音频、语义、视觉像素最终在同一个 Transformer 的 Token 空间里汇聚并相互理解时 ,我们距离那个真正具有“灵魂”、能听会说、一颦一笑皆与人类无异的实时虚拟伴侣,又狠狠地往前迈了一大步 。
配合EasyReader“导读+思维导图”功能阅读,效率提升80%。立即体验EasyReader论文阅读
更多推荐



所有评论(0)