全球千名学者联合设计基准测试顶尖模型正确率仅25% 智能系统专业能力边界引发关注

通用知识类测评面临新挑战——随着大模型快速"刷高分"，现有评测体系的区分度正下降。最新研究发现，当前测试难以准确评估模型在复杂推理、跨学科知识和严谨求证上的真实能力。为此，研究团队推出"人类最后一次考试"（HLE）基准，通过更严格的命题标准来检验大模型的专家级任务处理能力。

这次大规模智能评估不仅为技术发展提供了方向，也促使我们重新思考智能的本质。当AI在专业测试中频频受挫时，我们既要正视技术局限，也要避免将复杂认知简单量化。正如参与者所说："真正的进步不在于分数追赶，而在于实现人机优势互补。"

全球千名学者联合设计基准测试 顶尖模型正确率仅25% 智能系统专业能力边界引发关注