ChatGPT「克星」来了！文章作者是人是AI几秒检出，处事器已挤爆

影灬幻想 · 发表于 2023-5-8 09:54:44

丰色杨净发自凹非寺
量子位 | 公众号 QbitAI

你说ChatGPT，它写的东西传神到傻傻分不清？
不妨！
此刻，它的“克星”来了——
一位华人小哥专门搞了这么一个网站，专门分辩文字到底是出自于AI还是人类。
你只需要把相应的内容粘进去，几秒内就能分析出成果。
比如这段从新闻网站里摘出来的。

它：“妥妥的人类～”
至于这段从推特上摘下来的文段。

它：“就知道是AI。”
如此神器一出，可谓迅速俘获大师的芳心。

这不，直接把处事器都给挤崩喽（好在还有个备用的）。

这下，那些用ChatGPT写作业的“熊孩子”也要惨啦？

是人还是ChatGPT？GPTZero：看我的

这个网站名叫GPTZero。
它主要靠“perplexity”，即文本的“猜疑度”作为指标来判断所给内容到底是谁写的。
NLP范围的伴侣们都知道，这个指标就是用来评价一个语言模型的好坏的。
在这里，每当你喂给GPTZero一段测试内容，它就会分袂计算出：
1、文字总猜疑度
这个值越高，就越可能出自人类之手。

2、所有句子的平均猜疑度
句子越长，这个值凡是就越低。

3、每个句子的猜疑度
通过条形图的方式呈现，鼠标悬浮到各个方块就可以查看相应的句子是什么（这里就两块，因为我此时输入的测试内容就俩句子）。

之所以要绘制这样的条形图，作者也作出了解释：

按照最新的一些研究：人类书写的一些句子可能具有较低的猜疑度（前面说过，人类的猜疑度是斗劲高的），但随着继续写，猜疑度势必会呈现峰值。
相反，用机器生成的文本，其猜疑度是均匀分布的，而且总是很低。

除此之外，GPTZero还会挑出猜疑度最高的阿谁句子（也就是最像人写的）。

法则就是这些，接下来实际测一测。
测试1：成功

首先来一段最新的英文新闻（目前还不撑持测中文）：

将它粘贴进测试框（需注意每句至少5个单词，建议每段能有10个句子，成果会更准一些）。
很快，GPTZero计算出这段文字的总文字猜疑度为27，句子平均猜疑度为171.2，每条句子的猜疑度图长这样：

以及猜疑度最高的句子的值为476。
看这个成果，估计你也猜出了GPTZero的答案：

是人类写的。

答对了。
测试2：掉败

来一段ChatGPT的。

将内容粘贴进测试框，得出这段文字的总文字猜疑度为31，句子平均猜疑度为76.67，每条句子的猜疑度图长这样：

以及猜疑度最高的句子的值为99。
看起来，每项猜疑度值都和上面那段差距都挺大的，应该能猜出来是AI写的吧。
不外遗憾的是，GPTZero无法给出答案，还但愿我们再多加一点文字尝尝。

显然，这段话字数够多，但句子不够多，无法让GPTZero一眼识破ChatGPT的“伪装”。
测试3：成功

那我们再来一段ChatGPT的尝尝。

这回内容够长，句子也够多。
果然没问题了，GPTZero直接答对：

仿佛确实摸出来一点门道：
那就是字多的同时，句子数量也必然要多，至少5句，好让GPTZero通过直方图的分布加码识别，最后的准确率就可以提高一些。
此外还需要提的是，我们发此刻挑战掉败的情况中，除了上面这种识别不出来的时候，也有直接识别错误的——
比如把AI写的判断成人写的：

把人写的新闻判断成AI的：

这种情况按照上面所说的窍门，再多加点内容可能就能将成果扳回来。
（注意是可能哈，就上面这段新闻，我们把所有内容都粘进去了，它也说不行，还说要再多来点。）
普林斯顿华人小哥出品

创建该网站的，是一个22岁的华人小哥Edward Tian，来自加拿大多伦多。
目前是美国普林斯顿CS专业大四学生，辅修认知科学和新闻学，对软件工程、机器学习等有稠密的兴趣。

他此刻微软实习，曾在BBC、贝灵猫等公司撰写过科技稿件，还曾插手到地图东西Representable的创始团队。
学习期间，他曾来到清华大学参加为期四周的城市研究研讨会。
据他暗示，这个应用法式是新年假期在咖啡店完成的。
之所以想要开发这款应用法式，简而言之就是因为有太多ChatGPT炒作，人类应该知道有哪些是AI写的文章。
目前仍处于准系统阶段，预计在接下来几周内改良模型和分析。
除此之外，他还透露，正在测试由学生撰写的新闻文章数据集，并但愿最终能发表论文。
更多ChatGPT杀手

事实上，也不只有这位小哥看ChatGPT不顺眼了。还有其他人类组织也相应开发了AI文本检测器，AKA ChatGPT杀手。
大体思路也都差不多，那就是“用魔法打败魔法”，用AI写的东西来训练新AI。
前阵子，OpenAI本身联合哈佛等高校机构联合打造了一款检测器：GPT-2 Output Detector。

作者们先是发布了一个“GPT-2生成内容”和WebText（专门从国外贴吧Reddit上扒下来的）数据集，让AI理解“AI语言”和“人话”之间的差异。
随后，用这个数据集对RoBERTa模型进行微调，就得到了这个AI检测器。此中人话一律被识别为True，AI生成的内容则一律被识别为Fake。
（RoBERTa是BERT的改良版。原始的BERT使用了13GB大小的数据集，但RoBERTa使用了包含6300万条英文新闻的160GB数据集。）
另一位早年代表选手，也因为此次新进展再次被提及。
它就是MIT-IBM沃森AI尝试室的以及哈佛NLP尝试室开发的GLTR模型。

它主要通过对文本进行统计分析和可视化，而用来检测的是最初用来生成文本的不异or类似模型。目前主要撑持GPT-2和BERT两个模型。
由于输出是模型知道的所有单词排名，按照排名对文本每个单词进行颜色编码，前10名是绿色，前100名是黄色，前1000名是红色，紫色则是不太可能呈现的词。
如果一段文本黄绿色过多，那么这段文字主要是由AI生成的。
此番GPTZero再度表态，不少网友惊叹：Incredible work！

但也有人暗示，文本检测器底子就是一场掉败的军备竞赛，他们的实际效果并不好。也否决不了ChatGPT的成长。

与此同时，还有网友探讨起关于「文章是否需要明确指示由AI还是人类编写」的必要性。
有位词曲创作者认为，这是有必要的，就像在看杂志时会标注“广告”，这应该是一个简单的要求。

但有网友当即暗示否决，为什么要设置障碍？这就跟使用PS然后加上Adobe水印，对产物没有任何益处。

对于这个问题，你怎么看呢？
试玩链接：
https://etedward-gptzero-main-zqgfwb.streamlit.app/
参考链接：
[1]https://brackets.substack.com/about
[2]https://www.reddit.com/r/programming/comments/102hxlg/gptzero_an_app_to_efficiently_tell_if_an_essay_is/
[3]https://twitter.com/Marc__Watkins/status/1601746409203863553
[4]http://gltr.io/
—完—
@量子位 · 追踪AI技术和产物新动态
深有感到的伴侣，欢迎附和、存眷、分享三连վ'ᴗ' ի ❤

奔跑的牙膏 · 发表于 2023-5-8 09:55:20

所以就是adversary training 让chat gpt变得更厉害了？

WO谢邂你 · 发表于 2023-5-8 09:56:02

附议。

wln女王 · 发表于 2023-5-8 09:57:00

这不来一手对抗生成

6号 · 发表于 2023-5-8 09:57:07

人类丧失图灵测试权[doge]

小雅雅。 · 发表于 2023-5-8 09:58:01

问题不大，chatgpt都会条理清晰，用好列表。如果获取同样的信息，我宁愿看ai生成的分段文字。也不愿意看全用空格当标点，别人提醒还说标点out了的文章。

靜觀歷史 · 发表于 2023-5-8 09:58:18

想不到还有“困惑度”这种量化方法，应该拿去测测老胡的发言[飙泪笑]

山山大师兄 · 发表于 2023-5-8 09:59:04

[惊喜]ai大战

听寒踏雪 · 发表于 2023-5-8 09:59:48

能不能用来测试一下老胡的发言

樱空释19831031 · 发表于 2023-5-8 09:59:53

GAN-ChatGPT呼之欲出！[飙泪笑]

用户名		自动登录	找回密码
密码			立即注册

ChatGPT「克星」来了！文章作者是人是AI几秒检出，处事器已挤爆

本帖子中包含更多资源