如果以后全网都是AI生成的质量不高的内容这些AI大模型再用这些数据训练那么这些大模型会不会越来越差？

472374169 · 发表于 2023-6-29 19:27:41

如果以后全网都是AI生成的文章、绘画、视频、小说等，质量不高、而且很多也是反复的、很多也是虚假的，到时这些AI大模型再用这些不优质的数据训练，用这些数据训练的AI大模型的能力是不是会变得越来越差，怎么解决这一问题，让AI进化到有创新能力、缔造能力或者准确的预测能力，或者让其拥有自我意识是不是解决法子？那么怎么解决这一问题？

gsrhwwlq · 发表于 2023-6-29 19:28:18

哎这个问题是个好问题啊，如果没有人做反馈，就让LLM不断自己生成自己训练，最终会收敛到LLM的prior的。有理论可以证明这个的（刚好这个是我毕业论文的题目）~感兴趣私聊。

1534745610 · 发表于 2023-6-29 19:28:23

题主可以关注一下【合成数据】。
19年有一篇论文叫《Synthetic data for deep learning》，大意是说合成数据有时比真实的更好。
而且合成数据成本低，又能覆盖长尾场景，又能（一定程度上）解决部分数据隐私问题。非常爽。
Gartner预测到2030年合成数据将彻底取代真实数据，成为Al模型主要的数据来源。MIT科技评论将AI合成数据列为2022年十大突破性技术之一。
其实智能驾驶领域很多在用了，比如腾讯有个TAD sim，然后包括新冠的研究也用到了合成数据。一定意义上来说，ChatGPT也用了合成数据，结果上看也不错。
典型的公司比如Al.Reverie，被Meta收购了，还有Datagen、Sky engine啥的。
未来可期噢。

玲静天空 · 发表于 2023-6-29 19:29:11

BLIP已经证明了AI生成的伪标签不少比原始数据的标签更好（也更有训练效果），这就是蒸馏给我的自信。
不过一般网站肯定还是希望活人用户占比更高的。
一个联想：很多时候求解一些比较复杂的MDP，直接生成样本搞蒙地卡罗采样的速度，比数值优化硬算还要快。

安徽省亳州市涡 · 发表于 2023-6-29 19:29:33

确实有这个风险
但是我们换个角度思考下
当全网都充斥着质量不高的 AI 内容的时候，当 AI 因为训练数据越来越差而无法生成更好的内容的时候
那些真正的创作者，那种持续提升自己，持续更新优质内容的作者，他们的机会才真正的到来了！
所以，当下我们在善用 AI 的同时，还需要不断提升自己，让自己有产出优质内容的能力，不能完全依赖 AI
只有这样，才能未雨绸缪，永远立于不败之地！
照例是 AI 图片赏析，本人目前就是利用 AI，善用 AI，然后再反哺自身，提升水平！

合集链接:https://pan.baidu.com/s/17OUOmdTG0Kocza8xFJ7L3Q?pwd=jy38

xiaolu2003 · 发表于 2023-6-29 19:30:30

前两天跟一块玩AI的朋友们激情讨论（吵架）过这个问题，来说说我的看法。
目前关于这方面的研究，我引用一个新闻：

来自牛津、剑桥、帝国理工等机构研究人员发现，如果在训练时大量使用AI内容，会引发模型崩溃（model collapse），造成不可逆的缺陷。洛桑联邦理工学院（EPFL）的最新研究称，预估33%-46%的人类数据都是由AI生成的。当前的大模型训练数据大部分来源于过去几十年人类在互联网上的交流。如果未来的语言模型仍然依赖于从网络上爬取数据的话，就不可避免地要在训练集中引入自己生成的文本。对此，研究人员预测，等GPT发展到第n代的时候，模型将会出现严重的崩溃问题。

感兴趣的朋友可以去arXiv看一下这篇论文The Curse of Recursion: Training on Generated Data Makes Models Forget。
<hr/>但是就实际使用而言，我们引入人在回路之后，至少在现有的模型下，用Midjourney或者是GPT4的生成内容去训练开源模型的内容，效果很好。对于语言模型，一个月前就有不少小企业和科研机构通过用GPT4生成的内容再反过来训练他们的LLM了，这样的蒸馏手段是可以显著提高他们自己的语言模型的能力的。对于AI图像生成，我们用Midjourney和niji·journey生成了大量的图片，经过cherrypick后炼制的LoRA，再通过分层融合制作成.safetensors上传到C站上也收获了几k的下载量，实际效果是极好的。
上述例子都表明，在递归嵌套层数不高的情况下，从性能更优的AI模型里蒸馏出内容给性能更差的模型进行微调是没有任何问题的。
<hr/>问题出在哪里，为什么我们实际的工作和论文的结论对不上？主要有两点：
第一，我们的数据都是人工精挑细选的（当然也没有那么精细，还是蛮粗糙的），这样的cherrypick其实是引入了人类反馈，我的理解是有点类似于人在回路和有监督学习。而题目中提到的“低质内容灌水”的行为是完全没有人来反馈筛选的，在这种情况下的输出就是一种污染，我双手双脚支持类似StackOverFlow的政策（不过某些网站上没有AI的时候也是这个样子哈哈哈有了AI回答的内容反而质量更高了）。
第二，我们是从更优的大模型里蒸馏出内容给更差的模型，如果要从现在的最佳模型出发进一步训练更好的模型，那就难说了。
此外，有朋友提出，人类的反馈和监督可能没法挑出AIGC里的一些人类无法察觉到的内容，比如说是图片的某种人眼无法察觉到的噪声，或者是某种潜在的文字偏见等等，嵌套式的（输出变为输入）训练必然会放大这种噪声和偏见，这一点我认同。
<hr/>总而言之，我是支持类似StackOverFlow的在某些网站上屏蔽AI生成内容的政策的，要保留一部分保护区给AI提供训练数据的，但是不需要各种公共平台划入保护区，反正你公共平台的内容也不算优质，“garbage in，garbage out”，某些平台本身人类回答的有价值内容就占比很低（本来写了一些很尖锐的描述，想了想又删了哈哈哈），想要从这些平台提取优质素材库本身就是一个屎里淘金的工作。另外未来顶级大模型的发展和研制可以招募更多人来当数据标注员嘛哈哈哈，还能带动就业，反正大公司也不怕烧钱，这其实不是你我要担心的问题，等着继续从他们的模型里蒸馏就行~
最后，我双手双脚支持Yann LeCun老师的观点，大模型带不来AGI，生成大模型终究只是一堆概率和扩散的函数。如果有朝一日我们能够真的制造出一个有认知和思考能力的真的AI，那我们人类就是真的造物主了。

		自动登录	找回密码
密码			立即注册

如果以后全网都是AI生成的质量不高的内容这些AI大模型再用这些数据训练那么这些大模型会不会越来越差？

本帖子中包含更多资源