最近DeepSeek这个公司在GitHub上偷偷发布了一个很有意思的新代码库,叫FlashMLA。里面有114个文件被仔细检查了一遍,开发者发现里头出现了不少奇怪的东西。特别是“MODEL1”这个词,以前从来没对外说过,现在却在代码里露了脸。更让人惊讶的是,“MODEL1”老是跟他们家现在最常用的DeepSeek-V3.2放在一起比较。大家猜这意味着什么?肯定不是修修补补那么简单,多半是一个全新的、架构完全不一样的模型。 仔细看代码就会发现,“MODEL1”在很多关键地方跟V3.2完全不一样。显存占了大头?内存不够用?这个新模型在这些方面进行了大刀阔斧的改动。比如优化了键值缓存的方式,听说能把显存占用减少40%,推理速度也能翻个倍。这对处理长文本、长代码这种需要存很多上下文信息的任务特别有帮助。 还有计算精度跟速度怎么平衡?“MODEL1”用了个新招叫稀疏FP8解码技术。FP8精度不高但算得快,牺牲点精度换算力也是值得的。加上“稀疏”技术,它能自动跳过那些不重要的计算步骤,把信息损失控制在5%以内。这样既能跑得快,又对硬件要求不高,普通电脑也能用得起。 英伟达的新显卡来了没?这个“MODEL1”倒是很有前瞻性。代码里专门写了针对SM90(对应H100/H200)和SM100(对应B200)的优化参数。有些模块直接标着只能给“MODEL1”用,V3.2想调都调不动。看来他们是在紧跟硬件发展的步伐。 这么突然的泄露搞得大家都很兴奋。不少专家分析说,“MODEL1”很可能马上就要训练好了或者要准备部署了。现在的开发进度应该是卡在最后调试阶段吧。至于叫什么名字?大家猜得挺热闹。有人说这就是下一代旗舰DeepSeek V4的代号;也有人觉得是R系列模型的升级版本。 不管最终叫什么名儿,都能看出来DeepSeek这家公司的想法跟别人不一样。人家不是光盯着参数变大这点事儿干。他们更在乎怎么把工程效率搞得最高、推理成本降下来、模型更好用。这就叫在性能、效率和实用性中间找那个最佳点。 虽然公司到现在也没出来认这个代码库是啥玩意儿(多半是想保密),但这一个标识符就已经在圈子里炸了锅了。全球的AI技术圈都在等着看中国这家公司接下来要搞啥大动作。在人工智能真的要变成大规模产业应用的时候,底层架构的每一点改变都太重要了。“MODEL1”预示的方向不光是一家公司的事了,很可能会给整个行业带来新思路。接下来的动向我会继续盯着看的。