谷歌OpenAI等科技公司用《精灵宝可梦》测试AI能力游戏表现成评估新标准

在人工智能技术快速发展的背景下，如何更准确地评估系统性能成为行业关注点；以往测试方法多聚焦于特定领域的单项能力，而近期谷歌、Anthropic等科技企业选择了一条不同路径：用上世纪90年代问世的角色扮演游戏《精灵宝可梦》作为新的测试载体。

从基准跑分到情境测试，评测方式的变化也反映出技术竞争重心的转移：挑战不再只是给出“正确答案”，而是在复杂环境中持续做出稳健、可复盘的决策；游戏既能映照模型能力的进步，也能暴露其短板与风险。推动更科学、更透明、更贴近应用的评测体系，或将成为下一阶段大模型走向产业深水区的重要一步。

谷歌OpenAI等科技公司用《精灵宝可梦》测试AI能力 游戏表现成评估新标准