学者提出"逆向起源"新标准 文字创造能力或成人工智能发展里程碑

问题——如何判断机器是否达到可与人类相提并论的智能水平,长期以来都是科技与哲学共同面对的难题。1950年提出的图灵测试以对话表现为标准:若测试者无法分辨对话对象是人还是机器,便可视为“具有智能”。但随着大模型等技术迅速发展,基于文本对话的评测越来越容易受“提问方式”“语境设置”“话术技巧”等因素左右。测试结果与其说反映被测对象的智能,不如说一定程度上反映提问者水平与测试场景设计。如何避免“看起来很聪明”取代“真正能创造”,成为新的现实挑战。 原因——王献华在演讲中指出,图灵测试的局限在于过度依赖语言交互的表层表现,容易被拟态能力、信息拼接与概率式输出所掩盖。实践中,测试者提问深浅不一、信息不对称、对话目标易被引导等问题,都会让结果大幅波动。更关键的是——人类智能并非孤立生成——而是在社会生活中逐步演化:规则在协作中形成,意义在共同体中稳定,知识在代际传播中累积。若忽略“社会性与制度性”这个维度,单靠对话很难触及智能的关键机制。 影响——从评测角度看,过度依赖对话式测试可能导致对智能能力的误判:一上,容易把“语言流畅”误当作“理解与创造”;另一方面,也可能忽视智能在组织协作、符号创造、规范形成等的关键能力。对产业而言,评测偏差会影响研发路线与资源配置,带来“追指标”而非“练能力”的倾向;对社会治理而言,若缺少更可靠的能力边界识别,也会在应用准入、风险评估与责任划分上增加不确定性。因此,建立更贴近智能本质的评估框架,不仅关乎学术讨论,也直接影响现实决策。 对策——因此,王献华提出“Nigiro Challenge”的测试设想。“Nigiro”由“Origin(起源)”反写而来,意在以逆向路径追问人类智能如何生成。该方案的核心是“社会性虚拟造字测试”:设想存在若干通用智能体,它们在协作、竞争与交流的社会互动中,能否逐步发明并稳定使用一套属于自己的文字或符号系统。检验重点不在于单次问答是否巧妙,而在于能否完成从“需求产生”到“符号设计”,从“共同约定”到“持续传播”,从“语义稳定”到“制度化使用”的全过程。也就是说,评测对象需要在群体层面实现符号的创造、约束与传承,展现更接近人类文明生成逻辑的能力。 前景——从文字这一文明成果切入,为智能评测设定了更高门槛:文字不仅是表达工具,更是社会协作的基础设施,背后涉及抽象能力、共同注意、规范意识与长期一致性维护。若智能体能在缺少外部强制灌输的条件下,通过互动自发形成可扩展、可传承、可纠错的符号体系,意味着其具备一定程度的“共同体建构能力”。一旦这种能力得到验证,将为智能研究带来方法上的转向:评测从“个体对话表现”走向“群体生成机制”,从“像不像”转向“能不能”。另外,有关探索也需要明确边界:如何排除人为提示与隐性模板,如何界定“文字”的最低标准,如何量化符号系统的稳定性与创新性,如何确保评测可重复、可比较,都是下一步必须回答的技术与方法问题。可以预见,未来智能评估将更强调多维指标与场景化验证,把语言能力、社会协作、工具使用、规则形成等能力纳入统一框架,提升结论的可信度与解释力。

王献华教授的“起源挑战”方案提示我们,评估人工智能的真实水平需要更深入的思考与更严谨的标准。它既是对既有测试方法的反思,也是在追问人类智能的关键要素。在人工智能快速演进的当下,如何科学、准确地判断机器是否真正具备智能,将直接影响我们对技术发展方向的判断,以及对人类与人工智能关系的定位。从文字发明该人类文明的重要创造出发,寻找衡量智能的新标尺,为智能评测提供了新的思路与讨论空间。