首个AI高考评测结果发布GPT-4o名列第二上海人工智能实验-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

程序员的店小二

2 年前

truem0_46163918

首个 AI 高考评测结果发布

GPT-4o 名列第二

上海人工智能实验室使用其司南评测体系OpenCompass，选取6个开源模型及GPT-4o，进行高考“语数外”全卷能力测试。

评测采用全国新课标I卷，参与评测的所有开源模型，开源时间均早于高考。

同时，成绩由具有高考评卷经验的教师人工评判。

评测采用“语数外”三科题目作为测试集，仅输入文字题干（数学包含2道带图试题），不纳入英语听力部分（30分）。

总分前三名Qwen2-72B、GPT-4o、InternLM2-20B-WQX对应得分率分别为72.1%、70.5%和70.4%。

大部分模型在“语言”本质上的表现良好，语文平均得分率为67%，英语更是达到了81%。

而数学则是所有大模型的短板，平均得分率仅为36%。

阅卷教师对大模型“考生"的评价

本次阅卷采用与高考一致的完全匿名形式，所有大模型答卷均进行了匿名处理，避免阅卷教师产生"先入为主"的观念。

在阅卷开始前，阅卷教师未被告知答卷均由模型生成，使阅卷教师完全以面对真实考生的标准评判回答效果。完成所有大模型答卷的评卷工作后，阅卷教师被告知所评"考生"的真实身份为大模型。

研究人员同时邀请各科教师对大模型表现进行了整体分析，为模型能力提升策略提供参考。

语文︰
模型的现代文阅读理解能力普遍较强，但是不同模型的文言文阅读理解能力差距较大。大模型作文更像问答题，虽然有针对性但缺乏修饰，几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法。
多数模型无法理解"本体""喻体""暗喻"等语文概念。语言中的一些"潜台词”，大模型尚无法完全理解。

数学:
大模型的主观题回答相对凌乱，且过程具有迷惑性，甚至出现过程错误但得到正确答案的情况。
大模型的公式记忆能力较强，但是无法在解题过程中灵活引用。

英语:
英语整体表现良好，但部分模型由于不适应题型，在七选五、完形填空等题型得分率较低。
大模型英语作文普遍存在因超出字数限制而扣分的情况，而人类考生多因为字数不够扣分。

GAOKAO-Eval高考评估模型
GitHub: https://github.com/open-compass/GAOKAO-Eval

AI资讯

CSDN App 扫码分享

分享

评论

点赞

打赏

复制链接
举报

下一条：

ACL 正在征集 ACL 终身成就奖 (LTA) 的提名！请参阅 ACL 网站以获取提名详情：https://www.aclweb.org/portal/content/call-nomination-acl-lifetime-achievement-award-0