anthropic 泄露了3000份文件,这事要是放在平时,肯定是个大秘密,结果剑桥大学的亚历山大保韦尔

AI圈最近又搞出了大动静,Anthropic公司因为搞内容管理时手滑了一下,把近3000份没公开的内部文件都暴露在了公开的数据缓存里。这事儿要是放在平时,肯定是个大秘密,结果剑桥大学的亚历山大·保韦尔斯和LayerX Security的罗伊·帕斯,在瞎转悠的时候直接把这些机密文件给翻出来了。这下好了,外头人都能看到这家顶级AI实验室到底在憋什么大招了。 这泄露的东西里有啥呢?有产品规划、没用过的图片素材、内部开会记录,甚至还有员工请假的单子。不过最让人眼馋的是一个叫Mythos的新AI模型的技术细节。原来这东西跟个叫Capybara的产品共用底层架构,感觉就像发动机和整车的关系一样。测试数据说这个模型在做软件工程、搞学术推理还有搞网络安全测试上,比之前的Claude Opus 4.6强太多了。Anthropic内部觉得这是个具有里程碑意义的突破。 不过最吓人的还得说是这个模型的网络安全能力。文件里直截了当地说了,“它在攻防方面已经甩开竞争对手一大截了”,意味着以后用AI来搞破坏可能比现在的防御手段还厉害。为啥这么牛?因为它不是像以前那样瞎撞漏洞,而是靠理解语义来找同类缺陷,看一个就能想到好多风险。 面对这种可能引发的危机,Anthropic采取了两步走的策略。一方面给网络安全公司开了后门让他们赶紧加固系统;另一方面控制使用成本,短时间内只给特定企业用。公司也承认这是人为配置错误导致的,但强调泄露的只是早期草稿。 仔细看看技术文档能发现,Mythos不光参数多了,系统架构也有创新。它可能用了动态推理预算分配,能自动根据任务难度调整算力。处理长任务的时候,通过检查点设计能中断后接着干,不像以前那样得从头再来。 这种设计在调用工具时特别明显。文档说模型能自己规划实验路径,知道啥时候查资料、啥时候跑测试、啥时候用工具,形成了观察假设验证的闭环。这让它在处理复杂工程问题时跟人类工程师一样有系统化思维。 安全机制方面也挺猛。Mythos可能内置了多层验证系统,生成代码时自动查补丁行不行,安全场景下还会评估输出有没有攻击性。最关键的是它会一直盯着内部状态变化来判断危险行为。 虽然Anthropic马上把泄露的口子给堵上了,但Mythos的细节已经引起了行业大讨论。专家说一旦AI攻击的手段超过防御的手段了,现有的安全体系可能就得改改了。这次意外泄露引发的这场技术风暴,正在悄悄改变AI发展的方向呢。