开源网络智能体molmoweb,将它纳入自己的molmo 2 模型家族

Allen AI这个大动作,就是推出了一款开源的网络智能体MolmoWeb,这对于用户浏览网页和完成任务的能力来说,绝对是个大福音。其实在过去几个月里,AI智能体的表现已经有了显著提升,不过问题是很多支持它们的模型都是专有的,不太透明。这回周二,Allen人工智能研究所(Ai2)算是给大家交了一份满意的答卷,推出了MolmoWeb,把它纳入了自己的Molmo 2模型家族里。这次Ai2给大家提供了两种规格的版本,40亿参数的版本和80亿参数的版本,这两个规格都足够小,可以在本地运行。和Ai2所有其他的模型一样,他们还给大家公开了模型权重、训练数据、代码还有评估工具。虽然有很多人在做像WebMCP这样的努力,让智能体更容易和不同网站互动,但MolmoWeb这个系统可是真正能接受任务并试图通过看网页截图、预测下一步动作、点击按钮输入文本和滚动浏览器来完成任务的。所以说MolmoWeb这个家伙简直就是用人类一样的界面去执行各种浏览器中的任务呢! 它能导航网站、填写表单、在购物网站上搜索产品还有检索信息呢!最厉害的是,Ai2团队并没有拿那些专有视觉智能体来给MolmoWeb做蒸馏训练,而是直接用合成轨迹和人类演示数据来训练的。这种训练方法让它在一些标准浏览器使用基准测试中表现得特别亮眼。比如它甚至超过了OpenAI的GPT-4o(虽然版本旧了点),因为它依赖的是带注释的截图还有结构化页面数据。在开放权重模型里面,40亿参数版本还有80亿参数版本都轻松击败了Fara-7B和GLM-4.1V-9B这些竞争对手呢!不过总体来说Anthropic、谷歌、OpenAI这些公司的专有模型还是完胜那些开放模型啊! 虽然大家知道Ai2使命可能不是为了去跟Anthropic或者OpenAI硬碰硬去竞争吧,而是给研究人员们提供一些可替代的选项嘛!团队也表示:"开源社区不仅缺少模型,还缺少构建竞争性替代方案所需的训练数据、基础设施和评估工具。这个差距限制了可重现性,减缓了研究进展,也让人很难理解这些系统到底是怎么运作的。"毕竟大家都知道如今的网络智能体其实就像以前大语言模型一样需要一个基础开放平台来建设吧! 关于这次MolmoWeb训练集可是足足有3万个人类任务轨迹呢!Ai2自己还特别夸赞这是"迄今为止公开发布最大人类网络任务执行数据集",里面包含了1100多个网站将近60万个子任务哦!虽然数据量很大但还是不足以训练模型啦!所以团队还给它搞了合成轨迹这种数据作为补充呢!因为生成这些合成轨迹要容易得多吧!毕竟它们不需要解释那些截图嘛! 这次的训练集里面还有很多带注释截图什么的信息哦!并且还有超过220万个问答对呢!这些问答对来自推理任务中回答关于大概400个网站截图问题时得到的结果哦!现在MolmoWeb已经在Hugging Face还有GitHub上开放了所有训练数据和评估工具给大家玩了!