7月18日消息,近日,上海人工智能实验室揭晓了一场特殊的“高考”成绩,这场考试与众不同,因为它的参考者并非真实的学生,而是7个顶尖的AI大模型。这一评测的初衷在于探索当前大模型的真实能力水平,并寻找其可能存在的问题,以期推动技术的进步。
据评测结果,书生・浦语 2.0 系列文曲星大模型(浦语文曲星)、阿里通义千问大模型 Qwen2-72B 和广为人知的 GPT-4o 在众多模型中脱颖而出,分别在文科和理科的评测中位列前三。这三款大模型的文、理科成绩均超越了“一本”和“二本”的分数线,这一参考线是基于今年高考人数最多的河南省的分数线设定的。
此次参与评测的大模型除了上述三款外,还包括了Yi-1.5-34B、Qwen2-57B、GLM-4-9B以及来自法国AI初创公司Mistral的Mixtral 8×22B。整个评测过程严谨而全面,不仅进行了全卷的评分,还特意邀请了有高考阅卷经验的老师进行打分,以确保评分的公正性和准确性。
在这场特殊的“高考”中,Qwen2-72B 以546分的高分夺得了文科状元的桂冠,而浦语文曲星则以468.5分领跑理科。与此同时,GPT-4o在文理科均展现出不俗的实力。不过,国外的大模型Mixtral 8x22B在此次评测中表现相对较弱。
阅卷老师们在对答案进行仔细分析后指出,虽然大模型在基础知识的掌握上表现出色,但与真实考生相比,在逻辑推理和知识灵活应用上还存在明显差距。特别是在解答主观题时,大模型往往难以完整理解题目要求,导致答案与题目要求不符。在数学题的解答过程中,大模型的表现也显得机械且逻辑性不强。
根据上海人工智能实验室上个月公布的 AI 高考全卷结果,Qwen2-72B、GPT-4o 及书生・浦语 2.0 文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲,得分率均超过 70%。大部分模型“考生”语文、英语科目表现良好,但数学方面仍有很大提升空间。