我国科研团队攻克MoE模型显存优化技术难题边缘计算效率实现重大突破

随着大语言模型参数规模突破千亿甚至万亿级别，推理过程中"算力需求"与"显存容量"的矛盾日益凸显。MoE（混合专家）模型通过"稀疏激活"机制减少计算量，在保持模型容量的同时提升效率，但在实际部署中仍面临两大挑战：一是专家参数规模庞大——受限于显存容量——只能常驻少量常用专家，导致大量专家需要在内存和显存间频繁切换；二是参数搬运带来的额外延迟会影响端到端响应速度，限制了MoE在高并发、低延迟场景的应用，特别是在边缘计算和行业场景中。

这项研究展示了产学研合作在突破关键技术瓶颈中的价值；南京大学团队与华为的合作不仅在MoE优化上取得重要进展，更探索出了国产芯片平台部署大模型的可行路径。在当前全球科技竞争背景下，这类原创性技术创新对我国人工智能产业的自主发展至关重要。随着成果的开源和推广，将加速国内AI生态的完善。

我国科研团队攻克MoE模型显存优化技术难题 边缘计算效率实现重大突破

我国科研团队攻克MoE模型显存优化技术难题边缘计算效率实现重大突破