首届AI高考全卷评测结果出炉,该大模型位列第一
极木新闻记者 周丹
实习生何益平、魏文静
6月19日,上海人工智能实验室发布首个AI高考全卷评测结果,月初开源的阿里统一千文大模型Qwen2-72B位居第一,在语数英三科中取得了303分(满分420分),高于OpenAI的GPT-4o和上海人工智能实验室的学者蒲宇2.0文曲星(实习生LM2-20B-WQX)。
语文、英语成绩优秀,数学不及格
极木新闻记者看到,上海人工智能实验室微信公众号文章介绍,高考涵盖了各科目、各题型,这项为人类设计的高难度综合测试,目前被科研人员广泛用于测试大模型的智能水平。2024年高考一结束,上海人工智能实验室思南测评系统OpenCompass就选取了6个开源模型和GPT-4o,进行了高考“语数英”全量能力测试。由于无法确定闭源模型的更新时间,为了公平起见,本次测评并未纳入商用闭源模型,仅引入GPT-4o作为测评参考。
本次评测采用国家新课标第一册,参与评测的开源模型均在高考前开源,确保评测的“闭卷”性质。全试卷既包括选择、填空等“唯一答案”题型上海英语高考难度,也包括简答题、阅读理解、作文等主观题型,在更贴近真实高考的环境中考验模型能力。大模型的评分由有高考阅卷经验的老师进行人工评分,更贴近真实阅卷标准。
评测结果显示,语数英总分303的Qwen2-72B成为本次大模型高考“状元”,超越GPT-4o(296分)和学霸普语2.0文曲星(InternLM2-20B-WQX上海英语高考难度,295.5)。本次评测的另外三位大模型选手分别是法国AI创业公司Mistral的Mixtral 8x22B模型、零一万事的Yi-1.5-34B模型、智普AI的GLM-4-9B,以及阿里巴巴统一千文Qwen2系列的混合专家(MoE)模型Qwen2-57B-A14B。统一千文的MoE模型同样表现不俗首届AI高考全卷评测结果出炉,该大模型位列第一,以总分254分排名第四。
上海人工智能实验室指出,模特考生大部分语文、英语成绩较好,但在数学方面仍有较大进步空间。
实习生LM2-20B-WQX在数学方面取得了最高分,但仍然未能达到及格水平,表明大模型的数学能力还有很大的提升空间。
稍后将介绍多模态大模型评估
与以往用客观类高考题型评估大型模型的方式不同,本次测试既包括选择题、填空题等“答案唯一性”题型,也包括简答题、阅读理解、作文等主观题型,在更贴近真实高考的环境中检验模型的能力。
为了贴近高考评分模型,研究团队邀请了数名有阅卷经验的高中老师对主观题答案进行阅卷,每张试卷至少由三人阅卷,在分数相差较大的情况下,老师们会进行复核,尽量保证评分的公平性,为人工智能学术界和产业界提供更多有价值的参考指标。和真实高考一样,所有大样板答题纸均采用匿名化处理,避免阅卷人员的“先入为主”观念。
老师们对这些“AI考生”的语文、数学、英语水平给出了公正的评价:
汉语测试成绩显示,大模型普遍具有较强的现代汉语阅读理解能力,但在文言文阅读理解能力上不同模型之间存在较大差距。大模型写出的作文更像论述题,虽然有针对性,但缺乏润色,几乎没有使用人类考生会使用的例题、引文论证、名言等技巧。大多数大模型不理解“主语”、“隐喻”、“比喻”等语言概念,大模型也无法充分理解文章中的一些“潜台词”。
数学评分表明上海英语高考难度,大模型主观题答案比较杂乱,解题过程混乱,甚至出现过程错误却得到正确答案的情况;大模型记忆公式能力强,但在解题过程中不能灵活运用。
大模型在英语方面的表现总体不错,大模型写的英语作文普遍因为字数超标而被扣分,而真人考生大多因为字数不够而被扣分。
据了解,本次“大模型高考”的答案生成脚本、模型答题纸、老师评分详情等均已公开。未来研究团队将在测评中引入多模态大模型,检验模型处理更多题型的能力上海英语高考难度,并将陆续发布覆盖不同学科、不同地区的完整高考测评。
本文由佚名发布,不代表阿卡索英语培训 - 英语一对一线上外教培训!立场,转载联系作者并注明出处:/peixun/16849.html