高考AI测评乱象频现，残缺题干竟也能答出完整答案,ai高考智能预测

评测乱象该刹车了/AI图

手工劳动/挖哥

手工编辑 /角叔

出品/独角兽观察

一年一度的高考落幕，全民热议的考试话题，再度成为网络流量角逐的“主战场”。

与往届不同的是，随着人工智能大模型普及和成熟，各类AI产品走进大众视野。当学子们在考场内答题时，考场外，大模型也被“投喂”各个版本的高考试题，一决高下。

用高考试题来检验AI解题能力，无可厚非，但一些营销号缺乏科学的态度、严谨的论证方式，导致得出的测评结论脱离客观事实，经不起推敲。这不仅误导学生及家长，也扰乱了AI行业良性发展秩序。

01

评测翻车，残缺题干仍出完整答案

今年高考期间，一篇题为《“选拔牛顿接班人”的最难高考物理题，千问三答全对》的自媒体文章在社交平台吸引了不少眼球。

该文宣称凭借2026年广东高考物理压轴真题开展AI横向测评，得出“千问满分答对，其他两家AI全程翻车”的结论，凭借强烈的对立感、悬念感收割流量。

这道题以平行板电容器、绝缘杆、带电小球、绝缘绳为物理模型，融合电场力、重力、圆周运动、碰撞带电翻转等多个核心知识点，整道题目分为三个递进式小问题，环环相扣，题干信息、图形描述、物理条件、设问要求缺一不可。

文章在结尾处称物理最能暴露AI真实水平，因为物理题要求”视觉理解+语义理解，抽象思维+领域知识，推理规划，计算+验证能力”等综合能力，任何一个环节断裂，后面全部归零。

如果光从文章展示的答题过程和结果来看，似乎找不出什么毛病。

但有细心的网友实测还原测评场景后发现，这个所谓“满分作答”背后暗藏“玄机” —— 如果将这道高考物理大题裁去部分内容，仅保留残缺题干、隐去核心设问，最后千问模型依旧能输出完整答案。

这样一看，文中夸赞的“视觉理解+语义理解”就显得有些讽刺了。因为如果视觉理解好的话，应该能识别得出“题目不完整、缺少作答要求”。

结合AI行业技术常识不难判断，该模型很可能是在知识库中收录了这道完整高考物理题的题干、解题步骤和标准答案，大概率是在“背诵”答案。

平心而论，AI产品收录高考等试题答案属于常规操作，并不能算是“作弊”，造成这个测评最后翻车还是这个测评本身过于片面，缺乏科学的论证。

有意思的是，《独角兽观察》把这篇夸赞千问的测评文章去询问千问是否科学、客观？

千问给出的结论是“这不是一篇双盲、随机、多维度的科学评测”，并指出这篇文章最大的科学硬伤在于样本选择的随机性缺失：仅凭一道题（虽然是压轴题）就断言“一家全对，两家全错”，并由此推导出“物理最能暴露AI真实水平”，这在统计学上是不成立的。一道题可能恰好是千问训练数据中的“强项”，或者其算法恰好契合这道题的逻辑陷阱。

真正的科学评测应该包含不同类型的题目（如简单的概念题、复杂的计算题、实验题等）。只测一道“最难”的题，只能说明在极端情况下的表现，不能代表整体物理水平。

此处给千问点赞。

02

逻辑失真，高考评测乱象丛生

一场严谨的 AI 能力测评，核心原则是 “客观、公正、完整、可复现”，测评场景、测试素材、评判标准必须公开透明，测评结论要建立在真实测试数据之上。

此次引发争议的自媒体测评，从测试设计、过程呈现到结论推导，全程存在多处硬伤，最后的结论完全站不住脚，连被夸赞的千问大模型都 “不好意思接受”。

尤其值得警惕的是，测评选用的是高考真题这类公开试题 —— 这类题目一般是通过考生回忆记录，在网上流传，初期版本往往存在大量错漏情况。专业的评测应该做好题目校对，用AI大模型本身的推理能力进行测试，避免联网搜索答案。

或出于蹭流量，或出于专业能力不足，或出于信息不对称，今年高考试题评测翻车情况还不少。

一些评测存在“胡乱打分”现象，对步骤漏洞百出、逻辑混乱的答卷，刻意包装为“满分”营销素材，将明显的推导错误、符号误用美化成 “解题亮点”，甚至为特定 AI 模型量身打造 “满分神话”。

比如像这个被捧为交满分的AI答卷，原题条件有“当0

还有一些评测也极不严谨，测试出“耸人听闻”的结果——所有大模型没有一个答对的，后来网友发现原来是测试的题目传错了，让人哭笑不得。

更有评测全程不公开完整答题过程，仅凭几张截图、几句断章取义的文案就拼凑出几大AI解题能力榜单，榜单数据来源不明、对比维度缺失，却在社交平台疯狂传播。

这样的测评本身就缺乏专业知识，文案华丽、话术夸张，满是“最强”“天花板”“碾压同行”等绝对化用语，仅凭主观感受评价AI性能，完全丧失中立客观性。

这类乱象以高考热点为噱头，将测评异化为营销工具，既扰乱了公众对 AI 真实能力的判断，也消解了测评内容本应具备的参考价值与专业可信度，让严谨的技术对比沦为流量炒作的工具，是时候刹车了。（完）