AI终于能生成流畅3D动作片了，分歧动作过渡衔接不出bug，准确识别文本指令丨开源

冬天了 · 发表于 2023-8-5 11:36:20

萧箫发自凹非寺
量子位 | 公众号 QbitAI

让3D动画小人做一套丝滑的动作，需要手动衬着多久？

此刻交给AI，输入几句话就能搞定（分歧颜色代表分歧动作）：

看向地面并抓住高尔夫球杆，挥动球杆，小跑一段，蹲下。

此前，AI控制的3D人体模型基本只能“每次做一个动作”或“每次完成一条指令”，难以持续完成指令。

此刻，无需剪辑或编纂，只需按挨次输入几条命令，3D人物就能自动完成每一套动作，全程丝滑无bug。
这只新AI的名字叫TEACH，来自马普所和古斯塔夫·艾菲尔大学。

网友们脑洞大开：

这样以后拍3D动画电影，是不是只用剧本就能搞定了？

显然，游戏和仿真行业可以考虑一下了。

那么，这样的3D人物动作神器是怎么来的呢？
用编码器“记住”前一个动作

TEACH的架构，基于团队不久前提出的另一个3D人体运动生成框架TEMOS。
TEMOS基于Transformer架构设计，操作人体真实运动数据进行训练。
它在训练时会采用两个编码器，分袂是动作编码器（Motion Encoder）和文本编码器（Text Encoder），同时通过动作解码器（Motion Decoder）输出。
但在使用时，原本的动作编码器就会被“扔掉”、只保留文本编码器，这样模型直接输入文本后，就能输出对应的动作。

与其他输入单一文本、输出确定性动作的AI分歧，TEMOS能通过单一文本，生成多种分歧的人体运动。
例如“人绕圈”和“站着走几步路停下来”这种单一指令，就能生成好几种分歧的运动方式：

△转圈方式、走路步幅都纷歧样
TEACH的架构正是基于TEMOS设计，动作编码器直接就从TEMOS那儿搬了过来。
但TEACH从头设计了文本编码器，此中包罗一个名叫Past Encoder的编码器，它会在生成每一个动作时，提供前一个动作的上下文，以增加动作与动作之间的连贯性。

如果是一系列指令中的第一个动作，就禁用Past Encoder，毕竟没有前一个动作可以学了。
TEACH在BABEL数据集长进行训练，这是一个时长43小时的动捕数据集，包含过渡动作、整体抽象动作、以及每一帧的具体动作。

在训练时，BABEL的这一系列动捕数据会被切分成很多个子集，每个子集中包含一些过渡动作，让TEACH能学会过渡并输出。
至于为什么不用另一个数据集KIT进行训练，作者们也给出了本身的看法。
例如在动词类型上，BABEL呈现要比KIT更具体，对比之下KIT更喜欢用do/perform这种“模糊的”词汇。

研究人员将TEACH与TEMOS就持续动作生成效果进行了对比。
比TEMOS效果更好

先来看看TEACH生成一系列动作的效果，持续不重样：

随后，研究人员将TEMOS与TEACH进行了对比。
他们使用两种方式对TEMOS模型进行了训练，并分袂将它们称之为Independent和Joint，区别在于训练用的数据上。
此中，Independent直接用单个动作训练，在生成时将前后两个动感化对齐、球面线性插值等方式融合在一起；Joint直接用动作对和分隔开的语言标签作为输入。

Slerp是一种线性插值运算，主要用于在两个暗示旋转的四元数之间平滑插值，让变换过程看起来更流畅。

以生成“挥挥右手，举起左手”持续两个动作为例。
Independent的表示效果最差，人物当场坐下了；Joint效果好一点，但人物并没有举起左手；效果最好的是TEACH，在挥动右手后又举起了左手，最后才放下。

在BABEL数据集上测试表白，TEACH的生成误差是最低的，除此之外Independent和Joint的表示都不太好。

研究人员还测了测使用上一个动作的最佳帧数，发现当使用前一个动作的5帧时，生成的过渡动作效果最好。

作者介绍

Nikos Athanasiou，马普地址读研究生，研究标的目的是多模态AI，喜欢探索人类步履和语言背后的关系。

Mathis Petrovich，在古斯塔夫·艾菲尔大学（Université Gustave Eiffel）读博，同时也在马普所工作，研究标的目的是基于标签或文字说明发生真实的、多样化人体运动。

Michael J. Black，马克思·普朗克智能系统研究所主任，如今谷歌学术上论文引用次数达到62000+次。

Gul Varol，古斯塔夫·艾菲尔大学助理传授，研究标的目的是计算机视觉、视频特征学习、人体运动分析等。
目前TEACH已经开源，感兴趣的小伙伴们可以戳下方地址体验了~
GitHub地址：
https://github.com/athn-nik/teach
论文地址：
https://arxiv.org/abs/2209.04066
—完—
@量子位 · 追踪AI技术和产物新动态
深有感到的伴侣，欢迎附和、存眷、分享三连վ'ᴗ' ի ❤

ssplay · 发表于 2023-8-5 11:36:44

每天得到一些失业焦虑

ebchina · 发表于 2023-8-5 11:36:59

哦呵呵，这个技术不错哦。

hyqp · 发表于 2023-8-5 11:37:16

兴奋的点进来：什么？都有AI动作片了？？失望的点出去：噢，原来真的是AI动作片。

温州商霸天下 · 发表于 2023-8-5 11:38:13

脑子里已经有大家都失业后一起住在赛博平民窟对着仿生人动作片嘿咻嘿咻的场景了[害羞]

puppyyyyyyy · 发表于 2023-8-5 11:38:51

比较在意多人互动的精确度如何[doge]

bao20090724 · 发表于 2023-8-5 11:38:56

Ai技术总是在某个行业率先得到落地[惊喜]

clleon2001 · 发表于 2023-8-5 11:39:50

最近看了《仿生人妻子》看来不远了

雨惑飞 · 发表于 2023-8-5 11:40:33

我就想问问工具出来了没，可以配合VAM用不

mhyav22d · 发表于 2023-8-5 11:41:27

看到动作片我先滚进来然后带着邪恶且愤怒的感觉离开

		自动登录	找回密码
密码			立即注册

AI终于能生成流畅3D动作片了，分歧动作过渡衔接不出bug，准确识别文本指令丨开源

本帖子中包含更多资源