苹果公布UI生成研究新进展少量专家草图可微调模型性能

苹果公司近日公开发表一篇AI研究论文，由其UICoder团队主导，探讨生成式人工智能在应用程序界面开发中的应用潜力，并提出了模型优化的新思路；当前，业界常用的“人类反馈强化学习”在UI设计场景中暴露出明显不足：传统流程通常让评估者对AI结果做赞同/反对的二选一判断，或在多个方案间进行排序。这类反馈粒度过粗，难以表达设计理念中的复杂权衡与逻辑关系，也使设计师的专业经验难以真正进入训练过程。结果是，模型往往只能得到“效果不理想”这类笼统信号，却无法明确知道问题出在哪里、该如何改，进而影响学习效率与生成质量。为解决该瓶颈，苹果研究团队采用了不同的反馈机制。他们邀请了21位从业年限在2至30年的专业设计师参与实验——不再要求设计师简单打分——而是让其通过撰写详细点评、绘制修改草图，甚至直接编辑代码等方式，对AI生成界面进行具体改进。整个过程中共形成1460条深度标注数据，研究团队将修改前后的对比信息用于训练奖励模型。该模型结合截图与自然语言描述学习，逐步具备了接近专业设计师的能力，能够更好地评估UI的美观性与功能性。实验结果显示，基于草图反馈训练的模型表现最突出：仅使用181个草图注释进行微调，就在UI生成任务上超过了参数规模远大于它的通用大模型。这一结果提示，在特定领域，少量但高质量的专家级反馈，可能比单纯扩大模型规模更有效；参数更少的模型也能在针对性任务中获得更强表现，模型能力并非必然由规模决定。研究同时揭示了审美判断的主观性。在纯排序任务中，研究人员与设计师观点一致率仅为49.2%，接近随机水平，说明设计决策往往涉及多维度考量，难以用单一标准概括。也正因此，让设计师通过“改什么、怎么改”的方式直接表达意图，比抽象的排序判断更能传递信息；研究称，其信息传递准确性提升约三倍。这项研究对AI落地具有现实参考价值：未来人机协作的关键，可能不在于让人类用语言反复“说明”需求，而在于通过“展示”来表达目标，让系统从具体修改中推断深层意图。这也为垂直领域的优化提供了路径：与其无限扩展通用大模型，不如围绕特定场景积累高质量专家反馈，通过精准微调获得更稳定、更可控的性能提升。

这项进展不仅带来方法上的更新，也折射出人机协作方式的变化。当机器开始理解“不好在哪里”——而不仅是“好不好”——AI辅助创作就进入了更可用的新阶段。在强调规模的当下，苹果的研究提醒业界：能力提升或许更多来自对人类专业判断的有效吸收与转化。

苹果公布UI生成研究新进展 少量专家草图可微调模型性能

苹果公布UI生成研究新进展少量专家草图可微调模型性能