通用知识类测评面临新挑战——随着大模型快速"刷高分",现有评测体系的区分度正下降。最新研究发现,当前测试难以准确评估模型在复杂推理、跨学科知识和严谨求证上的真实能力。为此,研究团队推出"人类最后一次考试"(HLE)基准,通过更严格的命题标准来检验大模型的专家级任务处理能力。
这次大规模智能评估不仅为技术发展提供了方向,也促使我们重新思考智能的本质。当AI在专业测试中频频受挫时,我们既要正视技术局限,也要避免将复杂认知简单量化。正如参与者所说:"真正的进步不在于分数追赶,而在于实现人机优势互补。"