学者提出"逆向起源"新标准文字创造能力或成人工智能发展里程碑

问题——如何判断机器是否达到可与人类相提并论的智能水平，长期以来都是科技与哲学共同面对的难题。1950年提出的图灵测试以对话表现为标准：若测试者无法分辨对话对象是人还是机器，便可视为“具有智能”。但随着大模型等技术迅速发展，基于文本对话的评测越来越容易受“提问方式”“语境设置”“话术技巧”等因素左右。测试结果与其说反映被测对象的智能，不如说一定程度上反映提问者水平与测试场景设计。如何避免“看起来很聪明”取代“真正能创造”，成为新的现实挑战。原因——王献华在演讲中指出，图灵测试的局限在于过度依赖语言交互的表层表现，容易被拟态能力、信息拼接与概率式输出所掩盖。实践中，测试者提问深浅不一、信息不对称、对话目标易被引导等问题，都会让结果大幅波动。更关键的是——人类智能并非孤立生成——而是在社会生活中逐步演化：规则在协作中形成，意义在共同体中稳定，知识在代际传播中累积。若忽略“社会性与制度性”这个维度，单靠对话很难触及智能的关键机制。影响——从评测角度看，过度依赖对话式测试可能导致对智能能力的误判：一上，容易把“语言流畅”误当作“理解与创造”；另一方面，也可能忽视智能在组织协作、符号创造、规范形成等的关键能力。对产业而言，评测偏差会影响研发路线与资源配置，带来“追指标”而非“练能力”的倾向；对社会治理而言，若缺少更可靠的能力边界识别，也会在应用准入、风险评估与责任划分上增加不确定性。因此，建立更贴近智能本质的评估框架，不仅关乎学术讨论，也直接影响现实决策。对策——因此，王献华提出“Nigiro Challenge”的测试设想。“Nigiro”由“Origin（起源）”反写而来，意在以逆向路径追问人类智能如何生成。该方案的核心是“社会性虚拟造字测试”：设想存在若干通用智能体，它们在协作、竞争与交流的社会互动中，能否逐步发明并稳定使用一套属于自己的文字或符号系统。检验重点不在于单次问答是否巧妙，而在于能否完成从“需求产生”到“符号设计”，从“共同约定”到“持续传播”，从“语义稳定”到“制度化使用”的全过程。也就是说，评测对象需要在群体层面实现符号的创造、约束与传承，展现更接近人类文明生成逻辑的能力。前景——从文字这一文明成果切入，为智能评测设定了更高门槛：文字不仅是表达工具，更是社会协作的基础设施，背后涉及抽象能力、共同注意、规范意识与长期一致性维护。若智能体能在缺少外部强制灌输的条件下，通过互动自发形成可扩展、可传承、可纠错的符号体系，意味着其具备一定程度的“共同体建构能力”。一旦这种能力得到验证，将为智能研究带来方法上的转向：评测从“个体对话表现”走向“群体生成机制”，从“像不像”转向“能不能”。另外，有关探索也需要明确边界：如何排除人为提示与隐性模板，如何界定“文字”的最低标准，如何量化符号系统的稳定性与创新性，如何确保评测可重复、可比较，都是下一步必须回答的技术与方法问题。可以预见，未来智能评估将更强调多维指标与场景化验证，把语言能力、社会协作、工具使用、规则形成等能力纳入统一框架，提升结论的可信度与解释力。

王献华教授的“起源挑战”方案提示我们，评估人工智能的真实水平需要更深入的思考与更严谨的标准。它既是对既有测试方法的反思，也是在追问人类智能的关键要素。在人工智能快速演进的当下，如何科学、准确地判断机器是否真正具备智能，将直接影响我们对技术发展方向的判断，以及对人类与人工智能关系的定位。从文字发明该人类文明的重要创造出发，寻找衡量智能的新标尺，为智能评测提供了新的思路与讨论空间。

学者提出"逆向起源"新标准 文字创造能力或成人工智能发展里程碑

学者提出"逆向起源"新标准文字创造能力或成人工智能发展里程碑