3D Diffusion模型来了！OpenAI已开源

温柔大姐姐Z · 发表于 2023-5-8 10:55:51

欢迎存眷 @机器学习社区，专注学术论文、机器学习、人工智能、Python技巧

2022年不愧是 AIGC 行业元年。
伴随着 ChatGPT 的大火使得谷歌一周之内改口“会当真评估 ChatGPT 对搜索引擎的影响”，OpenAI 在 3D 图像生成范围进一步放出了大招开源项目“Point-E” [1]，可玩程度不下于 ChatGPT！
简单来说，用户可以输入一连串文字 prompt 内容，只需要短短 18 秒，模型就会生成一个 3D 点云图！[2]

这种快速出图极速反馈的特性使得 Point-E 成为了当下运行速度最快和对算力需求最小的生成模型。
想象一下之前 AI 作图也都需要以分钟级别进行等待，此刻只需要毫秒级的等待就能获得一个 3D 模型，这不得不说是一次业界进步！
喜欢本文记得保藏、点赞、存眷。技术交流文末获取
Point-E 详解

在文章中作者详细阐述了 Point-E 模型的工作道理，一共分为两步走：

GLIDE [3] 负责按照文字提示生成平面图像（ text-to-image ）；
CLIP [4] 基于平面图像生成 3D 点云图（ image-to-3D ）。

这样的工程设计极大地减少了对于难以获取的 3D 数据集的依赖，同时也充实地操作了现有的强大的文字转图片模型，增加了系统的可复制性。
值得注意的是，GLIDE 和 CLIP 都是 OpenAI 之前在图像生成范围的明星开源项目，而 Point-E 则相当于是基于东西库的一个微创新，专门针对轻量级生成范围筹备的手术刀式的模型。

任何成功的深度学习模型都离不开一个优秀的训练集，作为一个 3D 生成模型的训练集，最终的训练集包含 2D 衬着图和 3D 点云图。

首先，收集几百万个分歧质量分歧格式的 3D 模型，通过一系列工作流（牵涉到 Blender 的使用）输出尽可能同样大小和光感的 3D 模型，而且每个模型都拥有20个分歧角度的 2D 衬着图；
基于 2D 衬着图进一步生成 3D 点云图；
通过 CLIP 模型进行聚类分析，将过于平面的和低质量的模型删除后，得到模型训练集。

在得到训练集后，作者选择了 fine-tuning 现有的 GLIDE 模型措置文字转图片任务，以及基于 transformer 和 CLIP 模型措置图片转 3D 任务。

就像所有其他的扩散模型一样，Point-E 模型接受噪声向量并测验考试对其进行降噪。输出直接作为输入反馈，直到对劲为止。时间步长令牌也被输入以跟踪步数。
出格的，Point-E 的输出向量定义了点位置 (xyz) 和颜色 (rgb) 的 3D 点云。
此外，与其他扩散模型一样，Point-E 首先构建一个低分辩率的点云输出，随后由具有类似架构的升级模型对输出进行升级。
这也就意味着 Point-E 的输出精度可以随着输出点的增加而增加，作者但愿最终该模型的输出精度可以达到“3D 打印”级别，从而成为一个真正的出产力东西。

风起 Text-to-3D

之前火到破圈的 AI 作画让无数人看到了 AIGC 的潜力，一个自然而然的进阶想法就是，如果生成 3D 模型会怎样？
于是谷歌在去年推出了 Dream Fields [5]，前段时间一位华人建筑学小哥蒙胜宇（Simon Meng）制作的 colab 友好版本的 dreamfields-3D 正是基于这个模型。
紧接着谷歌在本年进一步推出了 DreamFusion [6]，同样是致力于解决三维合成大规模标注数据缺掉的问题，先基于文本提示生成 2D 图像，在训练优化一个神经辐射场 NeRF 模型

在这里我们不深究各个模型之间的优劣和技术之间的区别，单独聊一聊我对这一波 AIGC 浪潮的看法。
首先我认为这是一个不成避免，也无需避免的大趋势，正比如19世纪摄影技术的成长逐渐在艺术界引起艺术家们的讨论和反感一样，我们目前所处在的也正是这个科学技术成长而改变旧格局的时代。
当初为什么画家们否决摄影，因为当时画家谋生的一个重要手段就是给人们创作肖像画，而摄影技术的呈现就是在砸他们的饭碗。
而现如今，我们回过头查看那段历史，我们可以发现照相机的呈现彻底将绘画从为人们塑像的功能中解放了出来，艺术家们不需要考虑画面是否足够真实，相反画家们开始向人类的内心世界进发，从而造就了19世纪末到20世纪初印象画派杰出的艺术成就。
另一方面，随着摄影分手派在20世纪初纽约291艺廊的活动，摄影也逐渐被更泛博的社会群体所采取。至此，摄影与绘画的关系在这半个世纪的时间里从相爱相杀走向不变的各自出色，人类迎来了新时代。

AI 创作也不外乎于此，它们是“东西”。
我在试玩 ChatGPT 和 Point-E 的时候，常常抱着咖啡坐在屏幕前，傻呵呵地看着模型给出一个生成成果，然后再接着想一个新的 prompt 输入，此过程循环往复让我感到极为上瘾并乐此不疲。
这让我想到了小时候放学回家路上捡到了一根异常和手的树枝，一路上左挥右甩爱不释手，拿回家后交给老妈加工一下，这就是我家小木棍的来历。
垃圾满了捅一下，东西掉到床下扫一下，小孩皮了抽一下，大师用了都说好。
作为人类我们本质上就是要缔造东西、操作东西。
我还没忘记所谓的“元宇宙”概念，如果我们拥有了批量低成本获得 3D 模型的方式，也许每个人都能构建一个属于本身的“元宇宙”。
OpenAI 和谷歌公司提供的这些模型就比如是一个一个分歧用处的东西，伴随着 ChatGPT 的呈现，我们可以看到 OpenAI 正在逐渐布局 toC 财富。
说不定在不远的将来，我们能够真正作为用户，去参与这一次新的东西鼎新的浪潮。

参考文献

[1] Point cloud diffusion for 3D model synthesis, https://github.com/openai/point-e
[2]Point-E demo: text to 3D, https://huggingface.co/spaces/openai/point-e
[3] GLIDE: a diffusion-based text-conditional image synthesis model, https://github.com/openai/glide-text2im
[4]Contrastive Language-Image Pretraining, https://github.com/openai/CLIPngface.co/spaces/openai/point-e
[5]Zero-Shot Text-Guided Object Generation with Dream Fields, http://arxiv.org/abs/2112.01455
[6]DreamFusion: Text-to-3D using 2D Diffusion, https://arxiv.org/abs/2209.14988
[7]AI 会改变游戏美术吗？, https://www.gcores.com/radios/154838
技术交流群

建了机器学习算法技术交流群！想要进交流群、获取资料的同学，可以直接加微信号：mlc2060。加的时候备注一下：研究标的目的 +学校/公司+知乎，即可。然后就可以拉你进群了。
强烈保举大师存眷 机器学习社区 知乎账号和 机器学习社区 微信公众号，可以快速了解到最新优质文章。
算法交流、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~
保举文章

谷歌推出多轴注意力方式，既改良ViT又提升MLP
扩散模型背后数学太难了，啃不动？谷歌用统一视角讲大白了
ECCV22 | CMU提出首个快速常识蒸馏的视觉框架：80.1%精度，训练加速30%
CVPR22 最新132篇论文分标的目的整理｜包含方针检测、图像措置、医学影像等28个标的目的
李宏毅《机器学习》国语课程(2022)来了！
CVPR 2022 最新 65 篇论文分标的目的整理，标的目的包含：方针检测、动作识别、人群计数等标的目的
CVPR 2022 | CNN自监督预训练新SOTA：上交、Mila、字节联合提出具有层级布局的图像表征自学习新框架
NAM: 一种新的注意力计算方式，无需额外的参数！
关于机器学习模型可解释性算法的汇总
谷歌提出新模型 FLASH，让 Transformer 模型的效率倍增！训练成本暴减！
阿里、SFU提出通用QuadTree Attention，复杂度变线性，性能还更强！ICLR 2022已接收
学习视觉和语言的多粒度对齐？字节提出新多模态预训练方式 X-VLM：代码已开源！
超越ConvNeXt，VAN用普通卷积，登顶Backbone性能巅峰！
北大《深度强化学习中文版》.pdf 开放下载！
吴恩达：辞别，大数据
AAAI 2022 | 时间序列相关论文一览（附原文源码）
我删掉了Transformer中的这几层，性能反而变好了
深度学习中的 Attention 机制总结与代码实现（2017-2021年）
一文全览机器学习建模流程（Python代码）
吴恩达：28张图全解深度学习常识
PyTorch优化神经网络的17种方式
深度梳理：机器学习算法模型自动超参数优化方式汇总
赶忙保藏，PyTorch 常用代码段合集真香
聊聊恺明大神MAE的成功之处
何凯明团队又出新论文！北大、上交校友教你用ViT做迁移学习
大道至简，何恺明新论文火了：Masked Autoencoders让计算机视觉通向大模型
有了这个机器学习画图神器，论文、博客都可以事半功倍了！

祥云和 · 发表于 2023-5-8 10:56:41

無法類比19、20世紀的革命。AI對生產力的提高沒有帶來更多新工作，基本上電子繪畫工作已死，不管未來什麼新風格都可以扔到AI瞬間讓他（抄襲）學習完成，就像智子一樣AI鎖死了整體繪畫的任何創新的意義。[思考]

		自动登录	找回密码
密码			立即注册

3D Diffusion模型来了！OpenAI已开源

本帖子中包含更多资源