苹果发布端侧轻量模型Ferret-UI Lite以30亿参数实现复杂界面理解并强化隐私保护能力

一、问题背景:端侧智能面临算力与精度的双重制约 随着智能终端普及,用户对手机自动化操作的需求不断增加。但现有大型语言模型普遍依赖云端算力,参数规模动辄数百亿,难以部署算力有限的移动设备上。同时,手机图形用户界面(GUI)结构复杂、元素密集,图标与文字细小,通用模型在识别精度上存在明显不足。在有限算力条件下实现对复杂界面的精准理解与操作,成为端侧智能研究的核心挑战。 二、技术路径:轻量化设计与创新推理机制协同发力 针对上述问题,苹果研究团队推出Ferret-UI Lite,将模型参数压缩至30亿,属于轻量级多模态语言模型。其关键突破在于引入“推理时裁剪”机制:模型先对整体画面进行粗粒度预测,再定位并放大关键区域,对目标元素进行二次精细识别。这个过程类似人眼对细节的针对,使模型在不增加参数规模的前提下,提升对微小图标与文本的识别能力。 在训练数据上,团队面临高质量标注数据不足问题。为此,构建了由“任务生成器”“规划器”“执行者”“批评者”四个模块组成的合成数据系统,让模型在模拟环境中持续执行任务,并通过主动犯错与自我修正积累样本。相比依赖人工标注的静态数据集,这种动态生成方式不仅扩充数据规模,也提升了模型对点击无响应、弹窗干扰等真实异常情况的应对能力,训练效果优于传统方式。 三、测试表现:基础任务表现突出,复杂场景仍有提升空间 公开基准测试显示,Ferret-UI Lite在短流程、基础界面操作任务中表现出色,多项指标追平甚至超越参数量达720亿的大型服务器端模型,验证了轻量化路线的可行性。但团队也指出,模型在多步骤、长链条的复杂任务中仍有提升空间,后续优化仍需推进。 四、隐私价值:本地运行构筑数据安全屏障 Ferret-UI Lite可在设备端完成全部推理计算,无需将用户屏幕截图或操作数据上传云端。这一设计在赋予手机自动化能力的同时,从源头降低数据传输中的隐私风险。随着数据安全受到更多关注,本地化部署的现实意义更加突出,也符合全球主要市场对个人数据保护的监管趋势。 五、行业影响:轻量化端侧模型或成智能终端新方向 Ferret-UI Lite的发布为端侧智能体研究与产业化提供了新范式。它证明,通过有针对性的架构设计和训练策略,轻量级模型也能在特定垂直场景中实现接近大型模型的性能。这一路径有助于降低智能功能部署门槛,推动人工智能向更广泛的终端设备渗透,具有较强的示范价值。

Ferret-UI Lite的研发成功,不仅展示了移动端人工智能的一次进展,也说明了科技企业在隐私保护与技术创新之间的权衡;当全球数字产业面临算力与数据安全双重压力时,这种以技术创新破解难题的实践,或将为智能终端进化带来新的方向。未来,轻量化智能模型的广泛应用,有望重塑人机交互的基本方式。