评测乱象该刹车了/AI图
手工劳动/挖哥
手工编辑 /角叔
出品/独角兽观察
一年一度的高考落幕,全民热议的考试话题,再度成为网络流量角逐的“主战场”。
与往届不同的是,随着人工智能大模型普及和成熟,各类AI产品走进大众视野。当学子们在考场内答题时,考场外,大模型也被“投喂”各个版本的高考试题,一决高下。
用高考试题来检验AI解题能力,无可厚非,但一些营销号缺乏科学的态度、严谨的论证方式,导致得出的测评结论脱离客观事实,经不起推敲。这不仅误导学生及家长,也扰乱了AI行业良性发展秩序。
01
评测翻车,残缺题干仍出完整答案
今年高考期间,一篇题为《“选拔牛顿接班人”的最难高考物理题,千问三答全对》的自媒体文章在社交平台吸引了不少眼球。
该文宣称凭借2026年广东高考物理压轴真题开展AI横向测评,得出“千问满分答对,其他两家AI全程翻车”的结论,凭借强烈的对立感、悬念感收割流量。
这道题以平行板电容器、绝缘杆、带电小球、绝缘绳为物理模型,融合电场力、重力、圆周运动、碰撞带电翻转等多个核心知识点,整道题目分为三个递进式小问题,环环相扣,题干信息、图形描述、物理条件、设问要求缺一不可。
文章在结尾处称物理最能暴露AI真实水平,因为物理题要求”视觉理解+语义理解,抽象思维+领域知识,推理规划,计算+验证能力”等综合能力,任何一个环节断裂,后面全部归零。
如果光从文章展示的答题过程和结果来看,似乎找不出什么毛病。
但有细心的网友实测还原测评场景后发现,这个所谓“满分作答”背后暗藏“玄机” —— 如果将这道高考物理大题裁去部分内容,仅保留残缺题干、隐去核心设问,最后千问模型依旧能输出完整答案。
这样一看,文中夸赞的“视觉理解+语义理解”就显得有些讽刺了。因为如果视觉理解好的话,应该能识别得出“题目不完整、缺少作答要求”。
结合AI行业技术常识不难判断,该模型很可能是在知识库中收录了这道完整高考物理题的题干、解题步骤和标准答案,大概率是在“背诵”答案。
平心而论,AI产品收录高考等试题答案属于常规操作,并不能算是“作弊”,造成这个测评最后翻车还是这个测评本身过于片面,缺乏科学的论证。
有意思的是,《独角兽观察》把这篇夸赞千问的测评文章去询问千问是否科学、客观?
千问给出的结论是“这不是一篇双盲、随机、多维度的科学评测”,并指出这篇文章最大的科学硬伤在于样本选择的随机性缺失:仅凭一道题(虽然是压轴题)就断言“一家全对,两家全错”,并由此推导出“物理最能暴露AI真实水平”,这在统计学上是不成立的。一道题可能恰好是千问训练数据中的“强项”,或者其算法恰好契合这道题的逻辑陷阱。
真正的科学评测应该包含不同类型的题目(如简单的概念题、复杂的计算题、实验题等)。只测一道“最难”的题,只能说明在极端情况下的表现,不能代表整体物理水平。
此处给千问点赞。
02
逻辑失真,高考评测乱象丛生
一场严谨的 AI 能力测评,核心原则是 “客观、公正、完整、可复现”,测评场景、测试素材、评判标准必须公开透明,测评结论要建立在真实测试数据之上。
此次引发争议的自媒体测评,从测试设计、过程呈现到结论推导,全程存在多处硬伤,最后的结论完全站不住脚,连被夸赞的千问大模型都 “不好意思接受”。
尤其值得警惕的是,测评选用的是高考真题这类公开试题 —— 这类题目一般是通过考生回忆记录,在网上流传,初期版本往往存在大量错漏情况。专业的评测应该做好题目校对,用AI大模型本身的推理能力进行测试,避免联网搜索答案。
或出于蹭流量,或出于专业能力不足,或出于信息不对称,今年高考试题评测翻车情况还不少。
一些评测存在“胡乱打分”现象,对步骤漏洞百出、逻辑混乱的答卷,刻意包装为“满分”营销素材,将明显的推导错误、符号误用美化成 “解题亮点”,甚至为特定 AI 模型量身打造 “满分神话”。
比如像这个被捧为交满分的AI答卷,原题条件有“当0
还有一些评测也极不严谨,测试出“耸人听闻”的结果——所有大模型没有一个答对的,后来网友发现原来是测试的题目传错了,让人哭笑不得。
更有评测全程不公开完整答题过程,仅凭几张截图、几句断章取义的文案就拼凑出几大AI解题能力榜单,榜单数据来源不明、对比维度缺失,却在社交平台疯狂传播。
这样的测评本身就缺乏专业知识,文案华丽、话术夸张,满是“最强”“天花板”“碾压同行”等绝对化用语,仅凭主观感受评价AI性能,完全丧失中立客观性。
这类乱象以高考热点为噱头,将测评异化为营销工具,既扰乱了公众对 AI 真实能力的判断,也消解了测评内容本应具备的参考价值与专业可信度,让严谨的技术对比沦为流量炒作的工具,是时候刹车了。(完)