deepseek-r1 服务器端推理,英伟达拿下全面胜利

英伟达用Blackwell Ultra架构(GB300 NVL72)给DeepSeek-R1服务器端推理带来了突破,让它能把处理速度推到每秒每GPU处理8064个词元,甚至比v5.1版本快了2.77倍。这次测试中,英伟达依靠领先竞争对手9倍的Wins数量,在多项AI推理评测里拿下了全面胜利。DeepSeek-R1这个型号的交互式场景,重点考察了首字响应时间和Token速率,这更贴近真实的聊天体验。Meta贡献的DLRMv3把DCNv2升级成了基于Transformer的架构,提升了模型规模和计算强度。Wccftech在4月1日发文说,MLPerf v6.0这次引入了GPT-OSS-120B这类大型开源权重语言模型来测试数学和代码能力。Qwen3-VL-235B作为首个多模态视觉语言模型,用于处理非结构化数据的转换。YOLOv11 Large则把目标检测基准更新为Ultralytics的最新模型以适配边缘计算场景。由于生成视频计算量大,WAN-2.2测试改用了SingleStream模式来衡量延迟。IT之家引用英伟达的说法,MLPerf v6.0重点考察了密集型大语言模型和视觉语言模型等前沿技术。除了DeepSeek-R1,英伟达在Llama 3.1 405B模型的服务器端和离线测试中也分别提升了1.52倍和1.21倍的性能。对于文生视频的WAN-2.2基准测试,该测试弃用了传统Server模式而改用SingleStream模式来更准确地衡量延迟。这次被称为“AI界最严苛大考”的MLPerf v6.0 AI推理基准测试显示了英伟达凭借Blackwell Ultra架构的实力优势。