南京大学团队依托昇腾攻克MoE推理显存与时延难题，显存占用降低逾五成

随着人工智能技术的快速发展，大模型参数量已突破万亿级别；混合专家（MoE）稀疏架构凭借其模型容量与计算效率上的优势，成为当前AI领域的研究热点。然而，该技术在实际应用中面临重大挑战：大规模参数部署时的高显存占用问题，导致系统只能驻留少量核心专家模块，大量参数需要在内存与显存间频繁切换，造成明显的推理延迟。该瓶颈严重限制了MoE模型在边缘计算等资源受限场景的应用。

此突破表明我国自主芯片与大模型适配上取得重要进展；通过软硬件的深度协同，不仅解决了混合专家模型的部署难题，更验证了自主芯片平台在复杂AI任务中的竞争力。随着技术的开源推广，这一成果将加速自主芯片在AI领域的生态建设，推动我国人工智能产业的自主可控发展。