一、问题:算力利用率不足,推理速度难以提升 随着大模型推理需求快速增长,部分用户在使用多张黑威尔架构工作站GPU运行超大参数、低精度量化的混合专家模型(MoE)时,发现吞吐量低于预期。以4张RTX PRO 6000为例,推理速度长期维持在55 tokens/秒左右,难以突破。虽然某些环境优化能带来一定改善,但与硬件标称性能仍有明显差距。运行中出现的"Failed to initialize cutlass TMA WS grouped gemm"等报错信息,也为性能问题提供了重要线索。 二、原因:硬件差异导致内核选择不当 经过排查发现,问题根源在于底层算子内核对不同硬件产品的适配性。SM120架构的数据中心与工作站产品在共享内存容量上存在差异:数据中心级GPU提供更大的共享内存空间,而部分工作站GPU仅有约99KB。 CUTLASS自动调优机制在设计时更倾向于数据中心环境,其预设的K=128计算块需要更多共享内存。当在工作站环境下运行时,由于内存不足,系统只能选择效率较低的备选方案,导致硬件算力无法运用。 三、影响:单机与并发性能均受制约 该问题对单用户和多用户场景都产生了影响。单用户环境下,通过从WSL2迁移到原生Linux、更新驱动和CUDA版本等优化手段,推理速度可从55 tokens/秒提升至140 tokens/秒,但仍无法达到理想水平。 在并发场景下,影响更为显著。由于低效的内核选择,系统整体吞吐量大幅受限。测试数据显示,修复前4用户并发总吞吐量仅为250 tokens/秒,修复后提升至857 tokens/秒;8用户并发从510 tokens/秒提升至1283 tokens/秒。这表明问题不仅影响单次推理速度,还会在并发情况下造成更严重的性能瓶颈。 四、解决方案:优化内核适配性 技术团队通过调整计算块参数和修复编译路径,使K=64计算块能在SM120工作站GPU上正常运行,避免了因内存不足导致的性能回退。主要修改集中在CUTLASS的sm120_blockscaled_mma_builder.inl等代码路径。 优化后,单用户推理速度从142 tokens/秒提升至283 tokens/秒;在多卡和多用户场景下,系统吞吐量实现成倍增长。为方便部署,对应的方案已打包成预构建容器镜像。但专家建议,在实际应用中仍需根据具体模型和运行环境进行充分测试。 五、展望:硬件适配将成为关键 随着大模型推理向高效化发展,软件栈对硬件特性的适配将愈发重要。数据中心与工作站在功耗、内存等的差异,意味着需要根据不同硬件设计最优内核。未来,算子库和推理框架需要更精准地识别硬件特性,完善自动调优机制。 同时,随着低精度量化和MoE结构需求增长,内核的稳定性和兼容性将直接影响部署效率。预计针对共享内存、TMA等关键技术的优化,将成为提升推理性能的重点方向。
该技术突破再次证明——在AI计算领域——软件优化与硬件创新同等重要。如何发挥现有设备的潜力,正成为推动AI应用落地的关键。该案例也为行业提供了重要启示:在追求更高算力的同时,对现有资源的精细化优化同样能带来显著效益。