华为实验室突破扩散语言模型训练瓶颈创新"智能掩码"技术提升关键任务表现

问题——随着大模型技术向更强推理与更高效率演进，扩散语言模型因可并行建模、生成方式更灵活而成为新的研究方向。但训练效率与效果上，扩散语言模型仍遇到瓶颈：训练中普遍采用均匀随机遮蔽（masking）策略，使模型的学习信号被“平均摊开”。在代码生成、数学推理等更依赖关键信息的任务里，模型往往难以聚焦决定性token，导致训练投入与能力提升不成正比。原因——研究人员指出，语言序列中不同token的信息量差异很大。尤其在包含符号、运算关系和变量依赖的场景中，少数位置往往决定整体语义与逻辑结构。如果对所有位置一视同仁地遮蔽，模型容易在大量低信息区域重复学习——而关键区域的信号被稀释——表现为逻辑骨架掌握不足、长程依赖不稳定，甚至在部分训练阶段出现上下文理解退化。也就是说，难点不只在算力和数据规模，更在于学习注意力如何有效分配。影响——训练信号分配不合理，会让模型关键能力更早触顶：一上，推理链条与结构化内容的恢复质量受限；另一方面，训练稳定性下降，容易出现阶段性收敛不佳，更推高训练成本。对产业界来说，这意味着即使增加资源，也未必带来等比例收益，限制了扩散路线复杂任务上的落地。对策——针对这些问题，华为诺亚方舟实验室提出基于信息密度的遮蔽训练框架，并设计Smart Noise Scheduler来优化遮蔽分配。核心做法包括：第一，从训练样本中提取信息密度特征，定位高信息区域，为遮蔽策略提供更明确的依据；第二，在遮蔽阶段将样本划分为优先区域与普通区域，提高优先区域的遮蔽概率，引导模型更集中地恢复关键内容，同时兼顾语法结构与上下文连贯性的学习；第三，引入互补遮蔽（complementary masking），让同一样本以不同视角参与训练：一种视角强调补全逻辑骨架，另一种视角相对保留关键信息以促进语法与语境理解，并基于信息密度对训练目标进行“解耦”，提升综合能力。研究还比较了“硬遮蔽”与“软遮蔽”，结果显示保留适度随机性的软遮蔽更有利于训练稳定，能降低上下文崩塌等风险，提示遮蔽策略需要在“聚焦关键”和“保留弹性”之间取得平衡。前景——实验结果显示，相比传统随机遮蔽方法，该方案在多个基准测试中平均提升约4%。研究团队认为，意义不只在提升幅度本身，更在于验证“优化训练信号分配”能够系统性释放扩散模型潜力。更值得关注的是，该方法强调通过对少量数据进行结构化处理就能带来改进，为算力受限条件下推进模型训练提供了可复用的工程思路。业内分析认为，随着扩散语言模型在长文本建模、多样化生成与并行推理上的探索加深，信息密度驱动的训练策略有望与数据治理、训练调度和评测体系协同，进一步拓展其在代码、数理推理与复杂任务规划等领域的应用空间。

大模型竞争的重点正从“拼规模”转向“提效率、强能力、保稳定”。从均匀随机到信息密度引导的训练信号分配转变，反映出一个共同趋势：把有限算力用在最值得学习的部分。如何在规律性与随机性之间找到平衡、在结构化任务与通用能力之间实现兼顾，将影响扩散语言模型能否从研究热点走向可靠工具，也为行业探索更高效的基础模型训练路径提供参考。

华为实验室突破扩散语言模型训练瓶颈 创新"智能掩码"技术提升关键任务表现

华为实验室突破扩散语言模型训练瓶颈创新"智能掩码"技术提升关键任务表现