David赫西把Anthropic的Claude模型拉进了Twitch直播间,让它在Game Boy平台上对战《精灵宝可梦蓝》。这个AI领域新冒出来的热闹景象,是因为Anthropic发现了个好路子:用复杂的游戏来评估自家AI的能力。你看《精灵宝可梦》这游戏,跟以前那种玩玩《Pong》的简单电子游戏可不一样。它地图大得吓人,战斗是回合制的,还有好多宝可梦要抓,玩家或者是AI都得管理这些角色去探索和挑战道馆。这种游戏需要做很多连续的决定,比如是升级现有的宝可梦还是去抓新的,是冒险去打强敌还是慢慢培养队伍。这种决策一环扣一环,考验的是长期规划、资源分配还有根据不完整信息去推理的本事——这些都是通向通用人工智能(AGI)必须要具备的核心素质。 赫西解释说,《精灵宝可梦》给机器学习社区提供了个好平台,它逼着模型在动态环境里进行战略思考和序列决策。自从去年开始直播Claude玩游戏以来,赫西坦言这不仅仅是图个乐子,也是工作的一部分。他在观察Claude做决定的逻辑里有没有漏洞。这种新奇的评估方式很快引起了连锁反应。像谷歌的Gemini和OpenAI的GPT也都有直播玩《精灵宝可梦》的项目。据说这些大公司的开发人员有时候会直接进直播间去看AI的实时表现,然后远程调参调试模型。 目前谷歌的Gemini和OpenAI的GPT已经通关了初代作品《精灵宝可梦蓝》,正在向更难的续作发起挑战。而Anthropic的Claude还没完全通关任何一版游戏。这种差异能直观反映出不同模型在处理这类复杂任务时的表现不一样。大卫·赫西还说他们会把分析结果分享给客户做参考。 把游戏表现变成技术洞察是这个评估方法的最大价值所在。研究人员通过分析AI在每个路口的选择、战斗策略的好坏、资源管理效率和长期目标的坚持程度,能更清楚地知道模型是怎么工作的、有什么优势和局限。 从实验室的标准测试到《精灵宝可梦》这种经典游戏的实战演练,评估AI的方式正在变得更丰富多样。这种以《精灵宝可梦》为代表的复杂游戏有很多决策树和长期规划需求,正好能当成一个综合性的试金石来测试AI的真实水平。这股风潮生动展示了前沿AI在逻辑和规划方面的进展和挑战,也体现了业界想要找个更贴近人类智能的评估方法的努力。 它预示着未来AI技术的突破可能就在这些看似好玩的跨界试验中找到灵感和验证的依据。