问题——随着大模型技术向更强推理与更高效率演进,扩散语言模型因可并行建模、生成方式更灵活而成为新的研究方向。但训练效率与效果上,扩散语言模型仍遇到瓶颈:训练中普遍采用均匀随机遮蔽(masking)策略,使模型的学习信号被“平均摊开”。在代码生成、数学推理等更依赖关键信息的任务里,模型往往难以聚焦决定性token,导致训练投入与能力提升不成正比。 原因——研究人员指出,语言序列中不同token的信息量差异很大。尤其在包含符号、运算关系和变量依赖的场景中,少数位置往往决定整体语义与逻辑结构。如果对所有位置一视同仁地遮蔽,模型容易在大量低信息区域重复学习——而关键区域的信号被稀释——表现为逻辑骨架掌握不足、长程依赖不稳定,甚至在部分训练阶段出现上下文理解退化。也就是说,难点不只在算力和数据规模,更在于学习注意力如何有效分配。 影响——训练信号分配不合理,会让模型关键能力更早触顶:一上,推理链条与结构化内容的恢复质量受限;另一方面,训练稳定性下降,容易出现阶段性收敛不佳,更推高训练成本。对产业界来说,这意味着即使增加资源,也未必带来等比例收益,限制了扩散路线复杂任务上的落地。 对策——针对这些问题,华为诺亚方舟实验室提出基于信息密度的遮蔽训练框架,并设计Smart Noise Scheduler来优化遮蔽分配。核心做法包括:第一,从训练样本中提取信息密度特征,定位高信息区域,为遮蔽策略提供更明确的依据;第二,在遮蔽阶段将样本划分为优先区域与普通区域,提高优先区域的遮蔽概率,引导模型更集中地恢复关键内容,同时兼顾语法结构与上下文连贯性的学习;第三,引入互补遮蔽(complementary masking),让同一样本以不同视角参与训练:一种视角强调补全逻辑骨架,另一种视角相对保留关键信息以促进语法与语境理解,并基于信息密度对训练目标进行“解耦”,提升综合能力。研究还比较了“硬遮蔽”与“软遮蔽”,结果显示保留适度随机性的软遮蔽更有利于训练稳定,能降低上下文崩塌等风险,提示遮蔽策略需要在“聚焦关键”和“保留弹性”之间取得平衡。 前景——实验结果显示,相比传统随机遮蔽方法,该方案在多个基准测试中平均提升约4%。研究团队认为,意义不只在提升幅度本身,更在于验证“优化训练信号分配”能够系统性释放扩散模型潜力。更值得关注的是,该方法强调通过对少量数据进行结构化处理就能带来改进,为算力受限条件下推进模型训练提供了可复用的工程思路。业内分析认为,随着扩散语言模型在长文本建模、多样化生成与并行推理上的探索加深,信息密度驱动的训练策略有望与数据治理、训练调度和评测体系协同,进一步拓展其在代码、数理推理与复杂任务规划等领域的应用空间。
大模型竞争的重点正从“拼规模”转向“提效率、强能力、保稳定”。从均匀随机到信息密度引导的训练信号分配转变,反映出一个共同趋势:把有限算力用在最值得学习的部分。如何在规律性与随机性之间找到平衡、在结构化任务与通用能力之间实现兼顾,将影响扩散语言模型能否从研究热点走向可靠工具,也为行业探索更高效的基础模型训练路径提供参考。