有媒体让9家AI挑战 2024年高考难度最高的新课标Ⅰ卷:河南卷
最终四个考上一本:ChatGPT第一,国内字节豆包第一
整体表现:
1、9个AI,4个过了一本线,河南高考一本线(文科521分,理科511分),GPT4o最高分达562分,超一本线41分,排名第一,豆包542.5排名第二,位居国内模型第一
2、大模型文科表现优异,理科较差,数学全都不及格。文科最高分为562分(GPT-4o),理科最高分为478.5分(文心4.0)
科目表现:
语文、英语:语言类优势明显,甚至古诗文也能拿到90%得分率。
数学:在简单推理题上表现较好,但做不好复杂推导和证明类题目,逻辑能力还有待提高。
文理综合:文综里最像理科的地理最差,多数得分不到60%,理综里最像文科的生物最好,半数模型能做对一半以上题目。物理最高分仅有两家过50。有意思的是 GPT-4o政治最强,拿到了夸张的 91.5 分。
AI和人比究竟能力如何,高考测试算是从侧面交出了一份答卷。答案就像文章结尾那句话「路漫漫其修远兮」。
考生名单:
GPT-4o(OpenAI)
豆包(字节跳动)
文心 4.0(百度)
百小应(百川智能)
通义千问 2.5(阿里巴巴)
Kimi 智能助手(月之暗面)
元宝(腾讯)
智谱清言(智谱 AI)
海螺 AI(MiniMax)
测试方式:
测试轮次:鉴于大模型回答问题存在一定随机性,测试团队对所有科目进行两轮测试,取平均分。
输入格式:对所有公式输入采用 Markdown/LaTeX 格式。
对于图像问题,如模型可识别图片,则输入图片与文字;如模型无法识别图片,则只输入文字。
测试操作:
委托专业的AI数据服务商进行统一规范测试截图,所有测试均通过各款大模型产品的PC端官网公开入口完成操作。
判分方式:
与人类考生统一标准进行判分:选择题:只看最终答案。
填空题:根据最终结果给分。
多选题:部分正确按比例给分,错误答案零分。
解答题:按解题步骤算分。
作文:匿名处理,由专业老师打分。
详细内容:
https://mp.weixin.qq.com/s/2IueZaiCuyVp97DT-bP4Ow
- 复制链接
- 举报