有媒体让9家AI挑战2024年高考难度最高的新课标Ⅰ卷：河南-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

程序员的店小二

1 年前

truem0_46163918

有媒体让9家AI挑战 2024年高考难度最高的新课标Ⅰ卷：河南卷

最终四个考上一本：ChatGPT第一，国内字节豆包第一

整体表现：

1、9个AI，4个过了一本线，河南高考一本线（文科521分，理科511分），GPT4o最高分达562分，超一本线41分，排名第一，豆包542.5排名第二，位居国内模型第一

2、大模型文科表现优异，理科较差，数学全都不及格。文科最高分为562分（GPT-4o），理科最高分为478.5分（文心4.0）

科目表现：

语文、英语：语言类优势明显，甚至古诗文也能拿到90%得分率。

数学：在简单推理题上表现较好，但做不好复杂推导和证明类题目，逻辑能力还有待提高。

文理综合：文综里最像理科的地理最差，多数得分不到60%，理综里最像文科的生物最好，半数模型能做对一半以上题目。物理最高分仅有两家过50。有意思的是 GPT-4o政治最强，拿到了夸张的 91.5 分。

AI和人比究竟能力如何，高考测试算是从侧面交出了一份答卷。答案就像文章结尾那句话「路漫漫其修远兮」。

考生名单：

GPT-4o（OpenAI）
豆包（字节跳动）
文心 4.0（百度）
百小应（百川智能）
通义千问 2.5（阿里巴巴）
Kimi 智能助手（月之暗面）
元宝（腾讯）
智谱清言（智谱 AI）
海螺 AI（MiniMax）

测试方式：

测试轮次：鉴于大模型回答问题存在一定随机性，测试团队对所有科目进行两轮测试，取平均分。

输入格式：对所有公式输入采用 Markdown/LaTeX 格式。
对于图像问题，如模型可识别图片，则输入图片与文字；如模型无法识别图片，则只输入文字。

测试操作：

委托专业的AI数据服务商进行统一规范测试截图，所有测试均通过各款大模型产品的PC端官网公开入口完成操作。

判分方式：
与人类考生统一标准进行判分：选择题：只看最终答案。
填空题：根据最终结果给分。
多选题：部分正确按比例给分，错误答案零分。
解答题：按解题步骤算分。
作文：匿名处理，由专业老师打分。

详细内容：
https://mp.weixin.qq.com/s/2IueZaiCuyVp97DT-bP4Ow

AI资讯

CSDN App 扫码分享

分享

评论

点赞

打赏

复制链接
举报

下一条：

ElevenLabs 推出 ElevenLabs Reader 语音阅读器输入任何文档，如：如文章、邮件、PDF 和 ePub等文件直接可以帮你转成AI真人语音播报你可以在他们的语音库中选择各种你喜欢的声音