围绕生成式技术在应用开发中的落地,界面(UI)一直是难点:它既要保证功能可用、信息层级清晰,也要兼顾品牌风格与审美一致性;长期以来,主流训练方式多沿用“人类反馈强化学习”等思路,由评审对结果打分、排序或做二元判断。这套方法在文本问答等任务中较常见,但放到UI设计场景里往往“说不清、改不动”:评价能告诉系统“好或不好”,却难以明确“问题在哪、该怎么改”,导致模型在布局、对齐、留白、交互路径等关键细节上反复摇摆,难以贴近真实设计工作流。问题的核心在于,UI并不存在唯一标准答案。质量判断涉及可用性规范、平台一致性、信息架构与视觉审美等多维因素,且审美与风格本身带有主观差异。有关研究数据也印证了这个点:在仅做排序判断的任务中,研究人员与专业设计师的意见一致率不足一半,接近随机水平。换言之,只依赖简单评分,模型接收到的信号噪声更大,难以稳定沉淀可复用的设计规则,训练成本也会随之增加。
苹果的这项研究成果反映了人工智能发展的一个重要趋势:规模并非唯一决定因素,方向与方法同样关键。在模型参数持续增长的同时,如何让人工智能更准确地理解真实需求、如何设计更有效的人机协作与反馈机制,正成为产业关注的重点。随着更多企业和研究机构探索类似的训练创新,人工智能在设计、创意等专业领域的应用空间有望更打开,并推动技术能力与人类专业经验更深层次的融合。