首届AI高考全卷评测结果出炉，该大模型位列第一--阿卡索英语培训

极木新闻记者周丹

实习生何益平、魏文静

6月19日，上海人工智能实验室发布首个AI高考全卷评测结果，月初开源的阿里统一千文大模型Qwen2-72B位居第一，在语数英三科中取得了303分（满分420分），高于OpenAI的GPT-4o和上海人工智能实验室的学者蒲宇2.0文曲星（实习生LM2-20B-WQX）。

语文、英语成绩优秀，数学不及格

上海高考英语多难_上海高考英语太难_上海英语高考难度

极木新闻记者看到，上海人工智能实验室微信公众号文章介绍，高考涵盖了各科目、各题型，这项为人类设计的高难度综合测试，目前被科研人员广泛用于测试大模型的智能水平。2024年高考一结束，上海人工智能实验室思南测评系统OpenCompass就选取了6个开源模型和GPT-4o，进行了高考“语数英”全量能力测试。由于无法确定闭源模型的更新时间，为了公平起见，本次测评并未纳入商用闭源模型，仅引入GPT-4o作为测评参考。

本次评测采用国家新课标第一册，参与评测的开源模型均在高考前开源，确保评测的“闭卷”性质。全试卷既包括选择、填空等“唯一答案”题型上海英语高考难度，也包括简答题、阅读理解、作文等主观题型，在更贴近真实高考的环境中考验模型能力。大模型的评分由有高考阅卷经验的老师进行人工评分，更贴近真实阅卷标准。

上海英语高考难度_上海高考英语多难_上海高考英语太难

评测结果显示，语数英总分303的Qwen2-72B成为本次大模型高考“状元”，超越GPT-4o（296分）和学霸普语2.0文曲星（InternLM2-20B-WQX上海英语高考难度，295.5）。本次评测的另外三位大模型选手分别是法国AI创业公司Mistral的Mixtral 8x22B模型、零一万事的Yi-1.5-34B模型、智普AI的GLM-4-9B，以及阿里巴巴统一千文Qwen2系列的混合专家（MoE）模型Qwen2-57B-A14B。统一千文的MoE模型同样表现不俗首届AI高考全卷评测结果出炉，该大模型位列第一，以总分254分排名第四。

上海英语高考难度_上海高考英语多难_上海高考英语太难

上海人工智能实验室指出，模特考生大部分语文、英语成绩较好，但在数学方面仍有较大进步空间。

实习生LM2-20B-WQX在数学方面取得了最高分，但仍然未能达到及格水平，表明大模型的数学能力还有很大的提升空间。

稍后将介绍多模态大模型评估

与以往用客观类高考题型评估大型模型的方式不同，本次测试既包括选择题、填空题等“答案唯一性”题型，也包括简答题、阅读理解、作文等主观题型，在更贴近真实高考的环境中检验模型的能力。

为了贴近高考评分模型，研究团队邀请了数名有阅卷经验的高中老师对主观题答案进行阅卷，每张试卷至少由三人阅卷，在分数相差较大的情况下，老师们会进行复核，尽量保证评分的公平性，为人工智能学术界和产业界提供更多有价值的参考指标。和真实高考一样，所有大样板答题纸均采用匿名化处理，避免阅卷人员的“先入为主”观念。

老师们对这些“AI考生”的语文、数学、英语水平给出了公正的评价：

汉语测试成绩显示，大模型普遍具有较强的现代汉语阅读理解能力，但在文言文阅读理解能力上不同模型之间存在较大差距。大模型写出的作文更像论述题，虽然有针对性，但缺乏润色，几乎没有使用人类考生会使用的例题、引文论证、名言等技巧。大多数大模型不理解“主语”、“隐喻”、“比喻”等语言概念，大模型也无法充分理解文章中的一些“潜台词”。

数学评分表明上海英语高考难度，大模型主观题答案比较杂乱，解题过程混乱，甚至出现过程错误却得到正确答案的情况；大模型记忆公式能力强，但在解题过程中不能灵活运用。

大模型在英语方面的表现总体不错，大模型写的英语作文普遍因为字数超标而被扣分，而真人考生大多因为字数不够而被扣分。

据了解，本次“大模型高考”的答案生成脚本、模型答题纸、老师评分详情等均已公开。未来研究团队将在测评中引入多模态大模型，检验模型处理更多题型的能力上海英语高考难度，并将陆续发布覆盖不同学科、不同地区的完整高考测评。

本文由佚名发布，不代表阿卡索英语培训 - 英语一对一线上外教培训！立场，转载联系作者并注明出处：/peixun/16849.html

首届AI高考全卷评测结果出炉，该大模型位列第一

相关推荐

联系我们