AI视频抠图有多强？无需「绿幕」，也可达影视级效果！

民族英雄hero · 发表于 2023-9-11 13:46:25

今天一大早就被网友们安利了一个热门AI项目。
风闻，它可以带你周游世界，还能让AngelaBaby多拍几部电视剧。

这是啥情况？？
仔细一了解，本来是一款AI视频抠图神器，一大早就冲上了GitHub热榜。
官方介绍说，这个AI神器可以让视频措置变得非常简单且专业，不用「绿幕」，也能达到传神、毫无违和感的合成效果。
果然，打工人的“周游世界”只有AI能实现了[泪目]。
其实，视频抠图AI已经呈现过不少，但这一款确实让人感觉很惊艳。先来看下它演示Demo。
你能看出公路布景和大海布景的视频，哪一个是AI合成的吗？

连撩起的头发都看不出一点破绽。
而且就算疯狂跳舞也没有影响合成效果。

再来看下它背后的抠图细节，不仅精确到了头发，甚至还包罗浮起的碎发......

动态效果也是如此，疯狂甩头也能实时捕捉细节。

这项超强AI抠图神器来自香港城市大学和商汤科技联合研究团队，论文一作还是一位在读博士生张汉科。
接下来，我们来看下它背后的技术道理。
方针分化网络MODNet

关键在于，这个AI采用了一种轻量级的方针分化网络MODNet（ Matting Objective Decomposition Network），它可以从分歧布景的单个输入图像中平滑地措置动态人像。
简单的说，其功能就是视频人像抠图。

我们知道，一些影视作品尤其是古装剧，必需要对人物的布景进行后期措置。为了达到传神的合成效果，拍摄时一般城市采用「绿幕」做布景。因为绿色屏幕可以使高质量的Alpha 蒙版实时提取图像或视频中的人物。
此外，如果没有绿屏的话，凡是采用的技术手段是光照措置法，即使预定义的Trimap作为自然光照算法输入。这种方式会粗略地生成三位图：确定的（不透明）前景，确定的（透明）布景以及介于两者之间的未知（不透明）区域。
如果使用人工注释三位图不仅昂贵，而且深度相机可能会导致精度下降。因此，针对以上不足，研究人员提出了方针分化网络MODNet。

如图所示，MODNet由三个彼此依赖的分支S、D和F构成。它们分袂通过一个低分辩率分支来预测人类语义（SP）、一个高分辩率分支来聚焦纵向的边界细节（DP），最后一个融合分支来预测Alpha Matte （αp）。
具体如下：

语义估计（Semantic Estimation）：采用MobileNetV2[35]架构，通过编码器（即MODNet的低分辩率分支）来提取高层语义。
细节预测（Detail Prediction）：措置前景肖像周围的过渡区域，以I，S（I）和S的低层特征作为输入。同时对它的卷积层数、信道数、输入分辩率三个方面进行了优化。
语义细节融合（Semantic-Detail Fusion）：一个融合了语义和细节的CNN模块，它向上采样S（I）以使其形状与D（I，S（I））相之相匹配，再将S（I）和D（I，S（I））连接起来预测最终αp。

此外，基于以上底层框架，该研究还提出了一种自监督策略SOC（Sub-Objectives Consistency）和帧延迟措置方式OFD（One-Frame Delay )。
此中，SOC策略可以保证MODNet架构在措置未标注数据时，让输出的子方针之间具有一致性；OFD方式在执行人像抠像视频任务时，可以在平滑视频序列中预测Alpha遮罩。如下图：

尝试评估

在开展尝试评估之前，研究人员创建了一个摄影人像基准数据集PPM-100（Photographic Portrait Matting）。
它包含了100幅分歧布景的已精细注释的肖像图像。为了保证样本的多样性，PPM-100还被定义了几个分类法则来平衡样本类型，比如是否包罗整个人体；图像布景是否模糊；是否持有其他物体。如图：

PPM-100中的样图具有丰硕的布景和人物姿势。因此可以被看做一个较为全面的基准。

那么我们来看下尝试成果：

图中显示，MODNet在MSE（均方误差）和MAD（平均值）上都优于其他无Trimap的方式。虽然它的性能不如采用Trimap的DIM，但如果将MODNet改削为基于Trimap的方式—即以Trimap作为输入，它的性能会优于基于Trimap的DIM，这也再次表白显示MODNet的布局体系具有优越性。
此外，研究人员还进一步证明了MODNet在模型大小和执行效率方面的优势。
此中，模型大小通过参数总数来衡量，执行效率通过NVIDIA GTX1080 Ti GPU上超过PPM-100的平均参考时间来反映（输入图像被裁剪为512×512）。成果如图：

上图显示，MODNet的推理时间为15.8ms（63fps），是FDMPA（31fps）的两倍。虽然MODNet的参数量比FDMPA稍多，但性能明显更好。
需要注意的是，较少的参数并不意味着更快的推理速度，因为模型可能有较大的特征映射或耗时机制，比如，注意力机制（Attention Mechanisms）。
总之，MODNet提出了一个简单、快速且有效实时人像抠图措置方式。该方式仅以RGB图像为输入，实现了场景变化下Alpha 蒙版预测。此外，由于所提出的SOC和OFD，MODNet在实际应用中受到的域转移问题影响也较小。
不外遗憾的是，该方式不能措置复杂的服装和模糊的运动视频，因为这些内容不涵盖在训练数据集内。下一阶段，研究人员会测验考试通过附加子方针（例如光流估计）的方式来解决运动模糊下的视频抠图问题。
更多论文内容可参见：https://arxiv.org/pdf/2011.11961.pdf
引用链接：

https://github.com/ZHKKKe/MODNet

https://www.reddit.com/r/MachineLearning/comments/k1sttd/r_do_we_really_need_green_screens_for_highquality/

雷锋网雷锋网雷锋网

wyll · 发表于 2023-9-11 13:46:48

呃软件名字叫啥？是不是还用不上

缘灭天尽 · 发表于 2023-9-11 13:47:10

说了一大堆废话也不知道软件叫什么，什么时候能用，要不要钱

		自动登录	找回密码
密码			立即注册

AI视频抠图有多强？无需「绿幕」，也可达影视级效果！

本帖子中包含更多资源