苹果发布端侧轻量模型Ferret-UI Lite以30亿参数实现复杂界面理解并强化隐私保护能力

一、问题背景：端侧智能面临算力与精度的双重制约随着智能终端普及，用户对手机自动化操作的需求不断增加。但现有大型语言模型普遍依赖云端算力，参数规模动辄数百亿，难以部署算力有限的移动设备上。同时，手机图形用户界面（GUI）结构复杂、元素密集，图标与文字细小，通用模型在识别精度上存在明显不足。在有限算力条件下实现对复杂界面的精准理解与操作，成为端侧智能研究的核心挑战。二、技术路径：轻量化设计与创新推理机制协同发力针对上述问题，苹果研究团队推出Ferret-UI Lite，将模型参数压缩至30亿，属于轻量级多模态语言模型。其关键突破在于引入“推理时裁剪”机制：模型先对整体画面进行粗粒度预测，再定位并放大关键区域，对目标元素进行二次精细识别。这个过程类似人眼对细节的针对，使模型在不增加参数规模的前提下，提升对微小图标与文本的识别能力。在训练数据上，团队面临高质量标注数据不足问题。为此，构建了由“任务生成器”“规划器”“执行者”“批评者”四个模块组成的合成数据系统，让模型在模拟环境中持续执行任务，并通过主动犯错与自我修正积累样本。相比依赖人工标注的静态数据集，这种动态生成方式不仅扩充数据规模，也提升了模型对点击无响应、弹窗干扰等真实异常情况的应对能力，训练效果优于传统方式。三、测试表现：基础任务表现突出，复杂场景仍有提升空间公开基准测试显示，Ferret-UI Lite在短流程、基础界面操作任务中表现出色，多项指标追平甚至超越参数量达720亿的大型服务器端模型，验证了轻量化路线的可行性。但团队也指出，模型在多步骤、长链条的复杂任务中仍有提升空间，后续优化仍需推进。四、隐私价值：本地运行构筑数据安全屏障 Ferret-UI Lite可在设备端完成全部推理计算，无需将用户屏幕截图或操作数据上传云端。这一设计在赋予手机自动化能力的同时，从源头降低数据传输中的隐私风险。随着数据安全受到更多关注，本地化部署的现实意义更加突出，也符合全球主要市场对个人数据保护的监管趋势。五、行业影响：轻量化端侧模型或成智能终端新方向 Ferret-UI Lite的发布为端侧智能体研究与产业化提供了新范式。它证明，通过有针对性的架构设计和训练策略，轻量级模型也能在特定垂直场景中实现接近大型模型的性能。这一路径有助于降低智能功能部署门槛，推动人工智能向更广泛的终端设备渗透，具有较强的示范价值。

Ferret-UI Lite的研发成功，不仅展示了移动端人工智能的一次进展，也说明了科技企业在隐私保护与技术创新之间的权衡；当全球数字产业面临算力与数据安全双重压力时，这种以技术创新破解难题的实践，或将为智能终端进化带来新的方向。未来，轻量化智能模型的广泛应用，有望重塑人机交互的基本方式。