通义千问GPT-4o 等七款大模型高考成绩揭晓前三名文科破一本线理科跃二本线

本站原创 2024-10-22 天文图吧 0

7月18日消息，近日，上海人工智能实验室揭晓了一场特殊的“高考”成绩，这场考试与众不同，因为它的参考者并非真实的学生，而是7个顶尖的AI大模型。这一评测的初衷在于探索当前大模型的真实能力水平，并寻找其可能存在的问题，以期推动技术的进步。

据评测结果，书生・浦语 2.0 系列文曲星大模型(浦语文曲星)、阿里通义千问大模型 Qwen2-72B 和广为人知的 GPT-4o 在众多模型中脱颖而出，分别在文科和理科的评测中位列前三。这三款大模型的文、理科成绩均超越了“一本”和“二本”的分数线，这一参考线是基于今年高考人数最多的河南省的分数线设定的。

此次参与评测的大模型除了上述三款外，还包括了Yi-1.5-34B、Qwen2-57B、GLM-4-9B以及来自法国AI初创公司Mistral的Mixtral 8×22B。整个评测过程严谨而全面，不仅进行了全卷的评分，还特意邀请了有高考阅卷经验的老师进行打分，以确保评分的公正性和准确性。

在这场特殊的“高考”中，Qwen2-72B 以546分的高分夺得了文科状元的桂冠，而浦语文曲星则以468.5分领跑理科。与此同时，GPT-4o在文理科均展现出不俗的实力。不过，国外的大模型Mixtral 8x22B在此次评测中表现相对较弱。

阅卷老师们在对答案进行仔细分析后指出，虽然大模型在基础知识的掌握上表现出色，但与真实考生相比，在逻辑推理和知识灵活应用上还存在明显差距。特别是在解答主观题时，大模型往往难以完整理解题目要求，导致答案与题目要求不符。在数学题的解答过程中，大模型的表现也显得机械且逻辑性不强。

根据上海人工智能实验室上个月公布的 AI 高考全卷结果，Qwen2-72B、GPT-4o 及书生・浦语 2.0 文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲，得分率均超过 70%。大部分模型“考生”语文、英语科目表现良好，但数学方面仍有很大提升空间。

标签：天文图吧

通义千问GPT-4o 等七款大模型高考成绩揭晓前三名文科破一本线理科跃二本线

相关文章

批发的柴油式树枝粉碎机木柴粉碎的机械

家庭生活中的新宠高效除湿机的选择与使用指南

汽化过氧化氢消毒机的应用与创新发展研究