首个3D人像视频生成模型来了：仅需1张2D人像，眨眼、口型都能改变 | ICLR 2023

輕舞菲菲 · 发表于 2023-5-30 10:37:23

存眷“FightingCV”公众号
答复“AI”即可获得超100G人工智能的教程
点击进入→FightingCV交流群
只需1张普通照片，就能合成全角度动态3D视频。

眨个眼、动动嘴，都是小case~

比来AIGC爆火，3D人像模型生成这边也没闲着。
如StyleNerf、StyleSDF、EG3D等方式相继出生避世。
但到目前为止，这种生成模型都还逗留在单帧人像上。
比来，来改过加坡国立大学（NUS）和字节跳动的研究人员，在静态3D模型的基础上，提出了首个3D人像视频生成模型：PV3D（3D model for Portrait Video generation）。

PV3D的训练担任了3D GAN模型的长处，即无需动态的三维数据监督，只需要在足够数量的单视角2D视频数据长进行训练。
该生成框架将人像和动作进行解耦，基于视频的时间戳生成各自的三维表征，让视频可以从任意角度进行衬着。
长视频也能挑战：

3D动态人像生成

PV3D分袂从独立的高斯分布中采样随机噪声来表征外表和运动，外表噪声生成视频的主体内容，控制人像的ID以及人脸的各个部门，运动噪声配合视频帧的时间戳控制当前帧的动作。
为了确保生成内容的真实性以及外表和运动的解耦，PV3D训练两个独立的判别器分袂判定外表和运动的合理性。
该方式可以生成随机的人像视频以及相应的高质量的动态几何概况，让视频可以从任意角度进行衬着。
同时，该方式可以撑持下游的应用任务，比如静态人像驱动，人像视频的重建以及对人像动作的改削，所有的成果均可以保持高的多视角一致性。

主流的3D GAN模型都脱胎于StyleGAN布局。
因此这些模型均会将采样得到的噪声先映射到一个高维度的中间隐式编码(intermidate latent code)，大量现有的研究表白这种布局的隐式空间包含了丰硕的语义信息，可以用来控制生成的图像内容。
因此，最直接的拓展方式就是使用预训练的单帧3D GAN模型，通过学习一个额外的在隐式空间进行推理的时序模型对生成的内容进行合理的改变，从而生成3D人像视频。
然而，该方式的错误谬误是图片生成器和时序推理模型在分歧的阶段分袂被优化，导致最终的视频很难保持时间上的一致性。
另一种主流的视频生成模型使用稀疏训练的方式，在训练阶段直接随机生成视频中的少量帧，使用少数帧的时间戳编码运动信息，进一步的改变中间隐式编码从而一次性优化完整的生成器。
然而这种做法将全部的时序信息都包含在隐式空间中，导致最终的模型多样性较差、生成质量较低。
与上述方式分歧，PV3D在原有GAN模型的基础上在特定尺度的生成模块中插入运动信息的编码层，这些编码层独登时将控制运动的噪声映射为隐式编码，使用modulated convolution独霸外表特征，再将独霸后的特征与原始特征融合，从而提高生成视频的时序一致性和运动多样性。
此外，本工作还研究了以下问题：
如何有效地在视频生成任务中操作衬着的视角先验信息
针对3D视频生成，如何设计合理的外表和运动判别器

PV3D模型基于最新的静态3D GAN模型EG3D进行开发，EG3D采用高效的3D表征Tri-plane实现图像生成。
在训练阶段，PV3D采用稀疏训练的策略，对于一个视频采样两个噪声、两个时间戳以及各自时刻对应的相机视角。
相对应的，模型生成两帧对应的3D表征进行衬着得到粗拙的成果。随后使用超分辩率模块将图片上采样。
PV3D设计了两个独立的判别器监督网络的学习，此中视频判别器会编码两帧的相机视角以及时间间隔去判断生成成果的合理性。
尝试部门

评价指标

研究人员使用FVD来评估生成视频的质量。此外，为了评估多视角的一致性以及3D几何布局的质量，研究人员将3D GAN工作中常用的评价指标(生成人像的ID一致性、Chamfer距离、多视角的重投影误差)拓展到视频任务中。
与基线的对比

研究人员首先采用同期的3D视频生成工作3DVidGen作为基线。此外，研究人员还基于SOTA的单帧3D GAN (EG3D和StyleNerf) 和2D视频生成模型构建了三个基线模型。在3个公开数据集(VoxCeleb, CelebV-HQ, TalkingHead-1KH)上的尝试成果表白，PV3D在生成视频的多样性，3D几何的质量，以及多视角一致性上均超越基线模型。

消融尝试

研究人员对PV3D的各部门设计进行了消融尝试，例如：运动信息的编码和注入的位置，运动信息的插入方式，相机视角的采样策略，以及视频判别器的设计。

团队介绍

目前，该论文已被ICLR 2023接收。
作者团队由新加坡国立大学Show Lab和字节跳动组成。

论文地址：
https://openreview.net/pdf?id=o3yygm3lnzS
项目主页：
https://showlab.github.io/pv3d/

往期回顾

基础常识
【CV常识点汇总与解析】|损掉函数篇

【CV常识点汇总与解析】|激活函数篇

【CV常识点汇总与解析】| optimizer和学习率篇

【CV常识点汇总与解析】| 正则化篇
【CV常识点汇总与解析】| 参数初始化篇

【CV常识点汇总与解析】| 卷积和池化篇（超多图警告）

【CV常识点汇总与解析】| 技术成长篇 (超详细！！！)

最新论文解析
NeurIPS2022 Spotlight | TANGO：一种基于光照分化实现传神稳健的文本驱动3D风格化
ECCV2022 Oral | 微软提出UNICORN，统一文本生成与边框预测任务
NeurIPS 2022 | VideoMAE：南大&腾讯联合提出第一个视频版MAE框架，粉饰率达到90%
NeurIPS 2022 | 清华大学提出OrdinalCLIP，基于序数提示学习的语言引导有序回归

SlowFast Network：用于计算机视觉视频理解的双模CNN
WACV2022 | 一张图片只值五句话吗？UAB提出图像-文本匹配语义的新视角！
CVPR2022 | Attention机制是为了找最相关的item？中科大团队反其道而行之！
ECCV2022 Oral | SeqTR：一个简单而通用的 Visual Grounding网络
如何训练用于图像检索的Vision Transformer？Facebook研究员解决了这个问题！
ICLR22 Workshop | 用两个模型解决一个任务，意大利学者提出维基百科上的高效检索模型

See Finer, See More！腾讯&上交提出IVT，越看越精细，进行精细全面的跨模态对比！
MM2022｜兼具初级和高级表征，百度提出操作显式高级语义增强视频文本检索
MM2022 | 用StyleGAN进行数据增强，真的太好用了

MM2022 | 在特征空间中的多模态数据增强方式

ECCV2022|港中文MM Lab证明Frozen的CLIP 模型是高效视频学习者

ECCV2022｜只能11%的参数就能优于Swin，微软提出快速预训练蒸馏方式TinyViT

CVPR2022|比VinVL快一万倍！人大提出交互协同的双流视觉语言预训练模型COTS，又快又好！

CVPR2022 Oral｜通过多尺度token聚合分流自注意力，代码已开源

CVPR Oral | 谷歌&斯坦福（李飞飞组）提出TIRG，用组合的文本和图像来进行图像检索

		自动登录	找回密码
密码			立即注册

首个3D人像视频生成模型来了：仅需1张2D人像，眨眼、口型都能改变 | ICLR 2023

本帖子中包含更多资源