anthropic 泄露了3000份文件，这事要是放在平时，肯定是个大秘密，结果剑桥大学的亚历山大保韦尔

AI圈最近又搞出了大动静，Anthropic公司因为搞内容管理时手滑了一下，把近3000份没公开的内部文件都暴露在了公开的数据缓存里。这事儿要是放在平时，肯定是个大秘密，结果剑桥大学的亚历山大·保韦尔斯和LayerX Security的罗伊·帕斯，在瞎转悠的时候直接把这些机密文件给翻出来了。这下好了，外头人都能看到这家顶级AI实验室到底在憋什么大招了。这泄露的东西里有啥呢？有产品规划、没用过的图片素材、内部开会记录，甚至还有员工请假的单子。不过最让人眼馋的是一个叫Mythos的新AI模型的技术细节。原来这东西跟个叫Capybara的产品共用底层架构，感觉就像发动机和整车的关系一样。测试数据说这个模型在做软件工程、搞学术推理还有搞网络安全测试上，比之前的Claude Opus 4.6强太多了。Anthropic内部觉得这是个具有里程碑意义的突破。不过最吓人的还得说是这个模型的网络安全能力。文件里直截了当地说了，“它在攻防方面已经甩开竞争对手一大截了”，意味着以后用AI来搞破坏可能比现在的防御手段还厉害。为啥这么牛？因为它不是像以前那样瞎撞漏洞，而是靠理解语义来找同类缺陷，看一个就能想到好多风险。面对这种可能引发的危机，Anthropic采取了两步走的策略。一方面给网络安全公司开了后门让他们赶紧加固系统；另一方面控制使用成本，短时间内只给特定企业用。公司也承认这是人为配置错误导致的，但强调泄露的只是早期草稿。仔细看看技术文档能发现，Mythos不光参数多了，系统架构也有创新。它可能用了动态推理预算分配，能自动根据任务难度调整算力。处理长任务的时候，通过检查点设计能中断后接着干，不像以前那样得从头再来。这种设计在调用工具时特别明显。文档说模型能自己规划实验路径，知道啥时候查资料、啥时候跑测试、啥时候用工具，形成了观察假设验证的闭环。这让它在处理复杂工程问题时跟人类工程师一样有系统化思维。安全机制方面也挺猛。Mythos可能内置了多层验证系统，生成代码时自动查补丁行不行，安全场景下还会评估输出有没有攻击性。最关键的是它会一直盯着内部状态变化来判断危险行为。虽然Anthropic马上把泄露的口子给堵上了，但Mythos的细节已经引起了行业大讨论。专家说一旦AI攻击的手段超过防御的手段了，现有的安全体系可能就得改改了。这次意外泄露引发的这场技术风暴，正在悄悄改变AI发展的方向呢。