谷歌OpenAI等科技公司用《精灵宝可梦》测试AI能力 游戏表现成评估新标准

在人工智能技术快速发展的背景下,如何更准确地评估系统性能成为行业关注点;以往测试方法多聚焦于特定领域的单项能力,而近期谷歌、Anthropic等科技企业选择了一条不同路径:用上世纪90年代问世的角色扮演游戏《精灵宝可梦》作为新的测试载体。

从基准跑分到情境测试,评测方式的变化也反映出技术竞争重心的转移:挑战不再只是给出“正确答案”,而是在复杂环境中持续做出稳健、可复盘的决策;游戏既能映照模型能力的进步,也能暴露其短板与风险。推动更科学、更透明、更贴近应用的评测体系,或将成为下一阶段大模型走向产业深水区的重要一步。