南京大学团队依托昇腾攻克MoE推理显存与时延难题,显存占用降低逾五成

随着人工智能技术的快速发展,大模型参数量已突破万亿级别;混合专家(MoE)稀疏架构凭借其模型容量与计算效率上的优势,成为当前AI领域的研究热点。然而,该技术在实际应用中面临重大挑战:大规模参数部署时的高显存占用问题,导致系统只能驻留少量核心专家模块,大量参数需要在内存与显存间频繁切换,造成明显的推理延迟。该瓶颈严重限制了MoE模型在边缘计算等资源受限场景的应用。

此突破表明我国自主芯片与大模型适配上取得重要进展;通过软硬件的深度协同,不仅解决了混合专家模型的部署难题,更验证了自主芯片平台在复杂AI任务中的竞争力。随着技术的开源推广,这一成果将加速自主芯片在AI领域的生态建设,推动我国人工智能产业的自主可控发展。