|
比来AI检测成了一个话题,最开始是说大学用AI检测器,判断学生论文的AI含量,太高直接拒收。
紧接着然后又有动静说,很多人类作品颠末AI检测器的检测后,被认为含AI量很高,比如《荷塘月色》和《流浪地球》,都被认为AI含量超过了50%……
这说明两点:
第一,AI内容已经泛滥,尤其是以教育为目的的学校,AI直接影响了学校对学生的判定。
相信这点大师都有感觉,此刻你看的内容,不管文字、图片还是语音和视频,都有大量AI内容,经常看半天发此刻乱扯,浪费时间不说,被错误影响了认知就糟了。
第二,AI检测相当不成熟。
关于这点,我找材料,大致了解了一下:
首先,AI检测的基本道理是什么?
看两个指标,复杂度(Perplexity)与突发度(Burstiness)
- 复杂度(Perplexity):模型按照之前上下文来估计一个词呈现可能性的程度。复杂度得分越低,表白语言可预测性越强;复杂度得分越高,表白不确定性越大。对比AI,人类在写作时词序列的可预测性更低,所以具有较高的复杂度。
- 突发度(Burstiness):指内容中句子长度和布局的变化程度,衡量句子摆列的多样性和不成预测性。人类的写作常常呈现时断时续、长短句交错的情况,而AI生成的内容往往具有更统一、更有规律的模式。突发性越高,表白写作的缔造性、自发性和参与性越强;突发性越低,则反映出写作风格更加机械和单调。与猜疑度得分类似,人类撰写的内容凡是也有较高的突发度得分。
举个例子:
高复杂度文本示例(人):
”时钟上的每一秒城市爆发出一连串矛盾的瞬间,每一个瞬间都是一个宇宙。茶壶唱着热茶的歌剧,每一个热气腾腾的音符都是一首美妙的交响乐”。 低复杂度文本示例(AI):
”时钟滴答滴答,分秒不差。我往茶壶里倒入热水,一股舒缓的香气弥漫在房间里”。 高突发度文本示例(人):
”警报响起。脚踩在地板上。茶壶发出呼啸声。蒸汽沸腾。心脏怦怦直跳。世界,醒了。” 低突发度文本示例(AI):
”在安好的清晨,闹钟轻柔的嗡嗡声迎来了新的一天。我踱步到厨房,脚步轻快。茶壶吹着轻柔的口哨,那舒适的旋律与水蒸气的轻声细语相得益彰”。
但我个人感觉这两个指标只是特征,既不充实也不必要。比如有些作家就是日常话题娓娓道来,复杂性不高,突发性也不高。但读起来明显和AI纷歧样。
这就涉及到了非技术维度:
1. 个人不雅概念与真实经历
人类生成的文本具有独特的韵味,这种韵味来自作者的个人不雅概念和主不雅观体验。这种独特性往往能吸引读者并引起共鸣。人类撰写的内容可以通过趣闻轶事、个人故事和真实事例吸引读者,从而增加文章的深度和真实性。对比之下,AI生成的文本凡是缺乏这些个性化的润色,让人感觉普通而单调。
2. 原创性与创新思维
在原创性和独特想法方面,人类创作的内容凡是表示更为超卓。人类作者可以从本身的亲身经历中汲取灵感,提供新颖的不雅概念和创新的概念。他们能够在写作中注入缔造力,提供AI难以复制的独特见解。而AI生成的文本则主要依赖于模式和现有数据,容易导致缺乏原创性和呈现反复性内容。
3. 情感表达与叙事风格
人类撰写的文本能够传达更为丰硕的情感层次和细微的情绪变化,这是AI生成内容目前难以完全模拟的。人类作者能够将个人情感、价值不雅观和世界不雅观自然地融入文本中,缔造出独特的叙事风格和语言特点。AI模型虽然能够仿照某种风格,但往往缺乏情感上的真实性和深度。
但这三点,又很难转换成具体的简单的法则。
不外总体上,还是有些进展的。
这里引用一下2025年4月发表的《A Practical Synthesis of Detecting AI-Generated Textual, Visual, and Audio Content》论文成果。
当前识别AI生成内容的方式主要包罗以下几类:
1. 基于不雅察看的策略
这类方式通过不雅察看内容的特征来判断是否由AI生成,包罗:
- 不寻常的词汇选择或短语使用
- 文本流畅性或连贯性的缺掉
- 内容中的成见证据
2. 语言学和统计分析
这类方式从语言学和统计学角度分析文本特征:
- 分析文本的猜疑度和突发度
- 评估句法布局和词汇多样性
- 检测固定模式和反复性表达
3. 基于模型的检测方式
操作机器学习模型来区分AI生成和人类创作的内容:
- 对比学习框架(如DeTeCtive方式)
- 多任务辅助训练
- 基于信息检索的检测流程
4. 水印和指纹技术
一些AI系统(如OpenAI)开始在生成内容中插手不成见的”水印”,这些水印对人类不成见,但可被专门设计的检测器识别。
需要出格提到的是4,水印技术。
这是解决问题的另一种思路,我感觉更为可取,就像枪有膛线一样,大模型都应该有本身的水印,出了问题更好反查。 |
|