OpenAI文本生成3D模型再升级，数秒完成建模，比PointE更好用

飞越幼儿园 · 发表于 2023-5-16 09:05:09

此次，与点云显式生成模型 Point・E 对比，OpenAI 新推出的条件生成式 3D 模型 Shap-E 建模了高维、多暗示的输出空间，收敛更快，而且达到了相当或更好的样本质量。

生成式 AI 大模型是 OpenAI 发力的重点，目前已经推出过文本生成图像模型 DALL-E 和 DALL-E 2，以及本年初基于文本生成 3D 模型的 POINT-E。
近日，OpenAI 研究团队升级了 3D 生成模型，全新推出了 Shap・E，它是一个用于合成 3D 资产的条件生成式模型。目前相关模型权重、推理代码和样本已开源。

论文地址：https://arxiv.org/abs/2305.02463
项目地址：https://github.com/openai/shap-e

我们先来看一下生成效果。与按照文字生成图像类似，Shap・E 生成的 3D 物体模型主打一个「天马行空」。例如，一个看起来像香蕉的飞机：

看起来像一棵树的椅子：

还有经典例子，像牛油果的椅子：

当然也可以生成一些常见物体的三维模型，例如一碗蔬菜：

甜甜圈：

本文提出的 Shap・E 是一种在 3D 隐式函数空间上的潜扩散模型，可以衬着成 NeRF 和纹理网格。在给定不异的数据集、模型架构和训练计算的情况下，Shap・E 更优于同类显式生成模型。研究者发现纯文本条件模型可以生成多样化、有趣的物体，更彰显了生成隐式表征的潜力。

分歧于 3D 生成模型上发生单一输出暗示的工作，Shap-E 能够直接生成隐式函数的参数。训练 Shap-E 分为两个阶段：首先训练编码器，该编码器将 3D 资产确定性地映射到隐式函数的参数中；其次在编码器的输出上训练条件扩散模型。当在配对 3D 和文本数据的大型数据集长进行训练时，该模型能够在几秒钟内生成复杂而多样的 3D 资产。与点云显式生成模型 Point・E 对比，Shap-E 建模了高维、多暗示的输出空间，收敛更快，而且达到了相当或更好的样本质量。
研究布景
本文聚焦两种用于 3D 暗示的隐式神经暗示（INR）:

NeRF 一个 INR，它将 3D 场景暗示为将坐标和视向映射到密度和 RGB 颜色的函数；
DMTet 及其扩展 GET3D 暗示一个纹理 3D 网格，它作为函数将坐标映射到颜色、符号距离和顶点偏移的。这种 INR 能够以可微的方式构建 3D 三角网格，然后衬着为可微的栅格化库。

虽然 INR 灵活而富有表示力，但为数据集中每个样本获取 INR 的成本昂扬。此外每个 INR 可能有许大都值参数，在训练下游生成模型时可能会带来难题。通过使用带有隐式解码器的自动编码器来解决这些问题，可以获得较小的潜在暗示，它们直接用现有生成技术进行建模。此外还有一种替代方式，就是使用元学习创建一个共享大部门参数的 INR 数据集，然后在这些 INR 的自由参数上训练扩散模型或归一化流。也有人提出，基于梯度的元学习可能并不必要，相反映该直接训练 Transformer 编码器，发生以 3D 对象多个视图为条件的 NeRF 参数。
研究者将上述几种方式结合并拓展，最终得到了 Shap・E，并成为用于各种复杂 3D 隐式暗示的条件生成模型。首先通过训练基于 Transformer 的编码器来为 3D 资发生成 INR 参数，然后在编码器的输出上训练扩散模型。与先前的方式分歧，生成同时暗示 NeRF 和网格的 INR，允许它们以多种方式衬着或导入下游 3D 应用。
当在数百万个 3D 资产的数据集上训练时，本文模型能够在文本 prompt 的条件下发生多种可识此外样本。与比来提出的显式 3D 生成模型 Point・E 对比，Shap-E 收敛得更快。在不异的模型架构、数据集和条件感化机制的情况下，它能获得相当或更好的成果。
方式概览
研究者首先训练编码器发生隐式暗示，然后在编码器发生的潜在暗示上训练扩散模型，主要分为以下两步完成:
1. 训练一个编码器，在给定已知 3D 资产的密集显式暗示的情况下，发生隐式函数的参数。编码器发生 3D 资产的潜在暗示后线性投影，以获得多层感知器（MLP）的权重；2. 将编码器应用于数据集，然后在潜在数据集上训练扩散先验。该模型以图像或文本描述为条件。
研究者在一个大型的 3D 资产数据集上使用相应的衬着、点云和文本标题训练所有模型。
3D 编码器
编码器架构如下图 2 所示。

潜在扩散
生成模型采用基于 transformer 的 Point・E 扩散架构，但是使用潜在向量序列代替点云。潜在函数形状序列为 1024×1024，并作为 1024 个 token 序列输入 transformer，此中每个 token 对应于 MLP 权重矩阵的分歧行。因此，该模型在计算上大致相当于基础 Point・E 模型（即具有不异的上下文长度和宽度）。在此基础上增加了输入和输出通道，能在更高维度的空间中生成样本。
尝试成果
编码器评估
研究者在整个编码器训练过程中跟踪两个基于衬着的指标。首先评估重建图像和真实衬着图像之间的峰值信噪比（PSNR）。此外，为了衡量编码器捕捉 3D 资产语义相关细节的能力，对最大 Point・E 模型发生的网格进行编码，从头评估重建 NeRF 和 STF 衬着的 CLIP R-Precision。
下表 1 跟踪了这两个指标在分歧训练阶段的成果。可以发现，蒸馏损害了 NeRF 重建质量，而微调不仅恢复还略微提高了 NeRF 质量，同时大幅提高了 STF 衬着质量。

对比 Point・E
研究者提出的潜在扩散模型与 Point・E. 具有不异架构、训练数据集和条件模式。与 Point・E 进行斗劲更有利于区分生成隐式神经暗示而不是显式暗示的影响。下图 4 在基于样本的评估指标上对这些方式进行了斗劲。

下图 5 中显示了定性样本，可以看到这些模型凡是为不异的文本 prompt 生成质量分歧的样本。在训练结束之前，文本条件 Shap・E 在评估中开始变差。

研究者发现 Shap・E 和 Point・E 倾向于共享相似的掉败案例，如下图 6 (a) 所示。这表白训练数据、模型架构和条件图像对生成样本的影响大于选择的暗示空间。
我们可以不雅察看到两个图像条件模型之间仍然存在一些定性差异，例如不才图 6 (b) 的第一行中，Point・E 忽略了长凳上的小缝隙，而 Shap・E 试图对它们进行建模。本文假设会呈现这种特殊的差异，因为点云不能很好地暗示薄特征或间隙。此外在表 1 中不雅察看发现，当应用于 Point・E 样本时，3D 编码器略微降低了 CLIP R-Precision。

与其他方式斗劲
下表 2 中，研究者在 CLIP R-Precision 度量尺度大将 shape・E 与更广泛的 3D 生成技术进行了斗劲。

局限与展望
虽然 Shap-E 可以理解许多具有简单属性的单个对象 prompt，但它在组合概念方面的能力有限。下图 7 中可发现，这个模型很难将多个属性绑定到分歧的对象，而且当请求两个以上的对象时，无法有效生成正确的对象数量。这可能是配对训练数据不足导致的成果，通过收集或生成更大的标注 3D 数据集或许可以解决。

此外，Shap・E 发生可识此外 3D 资产，但这些凡是看起来粗拙或缺乏细节。下图 3 显示编码器有时会丢掉详细的纹理（例如仙人掌上的条纹），这表白改良的编码器可能会恢复一些损掉的生成质量。

更多技术和尝试细节请参阅原论文。

用户名		自动登录	找回密码
密码			立即注册

OpenAI文本生成3D模型再升级，数秒完成建模，比PointE更好用

本帖子中包含更多资源