学者提出“逆向起源”新测试，破解人工智能社会性智能评估难题

随着人工智能技术的快速发展，如何科学评估其智能水平成为学术界和产业界的重要课题；传统的评估方法正面临新的挑战和反思。图灵测试作为经典的智能评估标准，自1950年提出以来一直被广泛应用。该测试通过自然语言对话，判断机器行为是否与人类无异，若测试者无法区分，则认为机器具有智能。然而，随着现代人工智能系统的发展，越来越多的系统声称已经通过或接近通过图灵测试，这引发了学术界对该测试方法本身有效性的深刻质疑。王献华教授指出，图灵测试存在根本性的局限。他用"Gnirut测试"（图灵Turing的反写）该概念形象地说明了问题所在：图灵测试实际上如同一面镜子，反映的是提问者而非被测试者的真实水平。提问者的问题深刻，人工智能的回答就显得精妙；提问者的问题肤浅，人工智能的回答也就相应平庸。这种测试方法本质上无法真正衡量人工智能的独立智能水平，反而容易产生虚假的评估结果。基于对现有测试方法的批判性反思，王献华提出了"Nigiro Challenge"这一创新性测试方案。Nigiro是英文单词"Origin"（起源）的反写，象征着对人类智能本质的逆向探索。这一方案的核心理念源于对人类文明发展历程的深入思考。文字的发明是人类文明的重要标志，也是人类智能在社会环境中逐步发展的具体体现。人类并非天生就拥有文字，而是在长期的社会互动和实践中，根据交流和记录的需要，逐步创造和完善了文字系统。这一过程充分表明了人类智能的社会性特征和创新能力。 "Nigiro Challenge"的测试内容相对简洁明了，即针对所谓的通用人工智能体进行"社会性虚拟造字测试"。具体而言，就是考察一群人工智能体是否能够在相互之间的社会互动中，逐步发明出属于它们自己的文字系统。这个过程要求人工智能体不仅具备基本的交流能力，更需要具备创新意识、社会协作能力和文化创造能力。王献华认为，如果人工智能体能够完成这样的任务，即独立发明出一套文字系统，那么这样的智能体就应该被视为具有了与人类相当的智能水平。从文明发展的角度看，一个社会能否独立发明文字，虽然不一定是衡量文明的唯一标准，但确实是文明有形结晶的重要体现。能够创造文字的智能体，应该被接纳为人类社会的"合格成员"。这一新型测试方案的提出具有重要的理论意义。它将人工智能的评估从单纯的语言对话能力扩展到社会性创新能力，从被动的回应转向主动的创造，从个体能力转向集体协作。这种多维度、深层次的评估框架，更加贴近人类智能的本质特征，也更加科学合理。同时，"Nigiro Challenge"的提出也为人工智能研发和应用提供了新的方向指引。它提醒研发者，真正的人工智能应该具备社会适应性、创新性和文化创造能力，而不仅仅是信息处理和语言生成能力。这对于推动人工智能向更高层次发展具有重要的启蒙作用。

衡量智能不仅是技术问题，更关乎人类如何理解自身和界定文明边界。"造字"此文明起点的反向思考提醒我们：重点不在于机器能否"像人"对话，而在于能否在社会互动中形成可传承的共同知识；围绕新评估思路开展验证并完善治理框架——既是科学探索的需要——也是面向未来的必要准备。