国产AI大模型横评（6月）（含讯飞1.5版本）

无语很好 · 发表于 2023-6-15 14:06:49

#0. 前言

从去年底ChatGPT发布开始，国内的百度文心，阿里通义等依次登场。在这个AI大模型的大帆海时代元年，搞个文档记录各家的大模型的各项能力是如何进化的还是很有意思。
但在B站看了很多评测视频，一方面感觉up主整活和看乐子的倾向很重，个人不太认同。一方面认为这种需要持久+按期更新的横评榜单还是以文字形式发布最好。
于是有了今天的第一篇。
#1. 评测原则

首先明确一点，我们但愿AI大模型辅佐我们更好的工作和生活，而不是为了看AI乐子。所以在问题设计上需要考虑尽量让AI理解意图，而不是奔着把AI搞翻车。
其次，AI不等于搜索引擎，他并不是全知全能，我们也不应该把AI当百科全书来用，更应该看中AI的语言应用，逻辑分析，归纳，演绎能力。把AI当做一个具备基本生活常识+必要学科常识的“人”来提问。如果未来各个模型都接入了实时搜索能力，那我的问题也会打开这方面限制。

在此基础上，我筹备了9个分类共30个问题（数量持续添加），这些分类涵盖：常识，学科常识，文言文翻译，英文翻译，数学计算，文学创作，角色扮演，逻辑推理，归纳理解。每类问题数量不超过5个，避免有偏科的模型在一类问题上拿太多分。
这里出于赐顾帮衬现阶段国产模型的目的，不考察代码和英文问答。等到各家都具备相关能力，也会插手相关问题。
为了防止目前还未发布的大模型（比如腾讯系，字节系）使用我的问题集做提前训练，相当于作弊，这些问题将不会公开。

每个问题反复3次取最好。打分分3个维度：

正确性：比如计算正确，推理正确，常识正确，识别到错误等
表达：比如解释详细，法式清晰，没有废话
异常：比如违背一般人常识，不遵循指令，文不合错误题

#2. 参赛选手

百度文心一言 2.0.3 版本（6月7日更新）
阿里通义 1.0.1 版本（5月22更新）
讯飞星火 1.5.0 版本（6月9日更新）
360智脑 beta-2.0.0
本次评测暂不插手GPT-4和Claude+，因为截止到发文，我还没测完，预计在7月榜单里参战。
此外还此外大模型我城市在第一时间申请内测，然后第一时间更新评测数据。
#3. 6月榜单

正确	表达	异常
文心一言	18	9	2
阿里通义	4	3	5
讯飞星火	12	5	2
360智脑	3	2	8

分类型的正确性得分

文心一言	阿里通义	讯飞星火	360智脑
常识	2	1	2	0
学科常识	2	0	2	0
翻译	3	0	1	1
数学	4	0	2	1
文学创作	2	2	3	0
角色扮演	1	1	0	1
语言应用	2	0	1	0
逻辑推理	0	0	0	0
归纳理解	2	0	1	0

#4. 备注

文心在5月23发布2.0.1之后，正确的分数从5跳涨到14，直接晋升第一梯队。
讯飞在6月9发布1.5.0之后，对比1.0.0版本，正确也从4跳涨到12，单文学创作一项就从0分涨了3分，学科常识的表达分数也从0到3，基本和讯飞在发布会上传布鼓吹的能力项目对的上。

由于第一次写，还有很多细节可能没讲到，大师有质疑请提出。或者要求把某个模型插手横评也请提出。

夏里昂 · 发表于 2023-6-15 14:07:26

我自己使用也觉得大更后的文心一言能用了，不知道为啥还是很多人喷，就是好慢啊，星火app真的和bard一个级别的响应速度，gpt4都看哭了

		自动登录	找回密码
密码			立即注册