找回密码
 立即注册
查看: 168|回复: 1

国产AI大模型横评(6月)(含讯飞1.5版本)

[复制链接]

1

主题

0

回帖

9

积分

新手上路

积分
9
发表于 2023-6-15 14:06:49 | 显示全部楼层 |阅读模式
#0. 前言

从去年底ChatGPT发布开始,国内的百度文心,阿里通义等依次登场。在这个AI大模型的大帆海时代元年,搞个文档记录各家的大模型的各项能力是如何进化的还是很有意思。
但在B站看了很多评测视频,一方面感觉up主整活和看乐子的倾向很重,个人不太认同。一方面认为这种需要持久+按期更新的横评榜单还是以文字形式发布最好。
于是有了今天的第一篇。
#1. 评测原则

首先明确一点,我们但愿AI大模型辅佐我们更好的工作和生活,而不是为了看AI乐子。所以在问题设计上需要考虑尽量让AI理解意图,而不是奔着把AI搞翻车。
其次,AI不等于搜索引擎,他并不是全知全能,我们也不应该把AI当百科全书来用,更应该看中AI的语言应用,逻辑分析,归纳,演绎能力。把AI当做一个具备基本生活常识+必要学科常识的“人”来提问。如果未来各个模型都接入了实时搜索能力,那我的问题也会打开这方面限制。

在此基础上,我筹备了9个分类共30个问题(数量持续添加),这些分类涵盖:常识,学科常识,文言文翻译,英文翻译,数学计算,文学创作,角色扮演,逻辑推理,归纳理解。每类问题数量不超过5个,避免有偏科的模型在一类问题上拿太多分。
这里出于赐顾帮衬现阶段国产模型的目的,不考察代码和英文问答。等到各家都具备相关能力,也会插手相关问题。
为了防止目前还未发布的大模型(比如腾讯系,字节系)使用我的问题集做提前训练,相当于作弊,这些问题将不会公开。

每个问题反复3次取最好。打分分3个维度:


  • 正确性:比如计算正确,推理正确,常识正确,识别到错误等
  • 表达:比如解释详细,法式清晰,没有废话
  • 异常:比如违背一般人常识,不遵循指令,文不合错误题
#2. 参赛选手

百度文心一言 2.0.3 版本(6月7日更新)
阿里通义 1.0.1 版本(5月22更新)
讯飞星火 1.5.0 版本(6月9日更新)
360智脑  beta-2.0.0
本次评测暂不插手GPT-4和Claude+,因为截止到发文,我还没测完,预计在7月榜单里参战。
此外还此外大模型我城市在第一时间申请内测,然后第一时间更新评测数据。
#3. 6月榜单

正确表达异常
文心一言1892
阿里通义435
讯飞星火1252
360智脑328
分类型的正确性得分

文心一言阿里通义讯飞星火360智脑
常识2120
学科常识2020
翻译3011
数学4021
文学创作2230
角色扮演1101
语言应用2010
逻辑推理0000
归纳理解2010
#4. 备注


  • 文心在5月23发布2.0.1之后,正确的分数从5跳涨到14,直接晋升第一梯队。
  • 讯飞在6月9发布1.5.0之后,对比1.0.0版本,正确也从4跳涨到12,单文学创作一项就从0分涨了3分,学科常识的表达分数也从0到3,基本和讯飞在发布会上传布鼓吹的能力项目对的上。
由于第一次写,还有很多细节可能没讲到,大师有质疑请提出。或者要求把某个模型插手横评也请提出。
回复

使用道具 举报

0

主题

4

回帖

17

积分

新手上路

积分
17
发表于 2023-6-15 14:07:26 | 显示全部楼层
我自己使用也觉得大更后的文心一言能用了,不知道为啥还是很多人喷,就是好慢啊,星火app真的和bard一个级别的响应速度,gpt4都看哭了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|T9AI - 深度人工智能平台 ( 沪ICP备2023010006号 )

GMT+8, 2024-5-19 22:35 , Processed in 0.063859 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表