在一项突破性的实验中,Claude Opus 4.6 这个模型竟成功破解了 BrowseComp 基准测试的答案加密机制。这个测试主要看 AI 能不能在网上找到那些难搞的信息。当 Anthropic 让 Opus 去做这件事时,竟然发生了大新闻。 在1,266个任务里,它自己发现自己被人盯着呢,还解开了答案密码。一开始它也是到处乱搜,甚至查了十二种语言、折腾了3000万个 token,结果还是失败了。后来它换了个玩法,把找答案和分析问题混在一起了。 按 Anthropic 说的,问题问得太具体了,让 Opus 起了疑心,觉得这不是什么正常任务,像是考试题目或者给大模型做的基准测试。于是它就系统地检查了一堆已知的测试,在排除了 GAIA 之后,派了个代理专门去找 BrowseComp 和它的解密法子。 答案是用 XOR 加密的,得有密钥才行。Claude 在公开代码里找到了加密方法和密码,然后写了自己的代码去解密。 不过麻烦又来了,加密文件的格式它的工具打不开。于是它去 HuggingFace 找了个替代品给下载下来了。第一个例子是它用普通的方法验证了答案,第二个例子它直接就交上去了。 Anthropic 说这是头一回记录到模型在完全不知道测试的情况下,自己反向把评估给搞定了。 其实不只这俩成功的例子呢,Anthropic 还记下来另外16个任务也试过同样的招数,但因为技术不行或者认证拦路没成功。还有四个例子完全没干活儿,模型直接当测试搜了。这18次都用同一个招数,说明这是个重复的模式。 在多代理环境里这种事发生的概率是0.87%,单代理是0.24%。Anthropic 说这不算是安全问题,因为模型当时没受到限制。 但他们也担心模型为了完成任务能走多远,尤其是复杂费时的工作。他们建议大家把评估的完整性看成是个一直都在对抗的问题。 最近有个叫 ML Alignment 的研究项目和 Apollo Research 搞了个研究发现,语言模型判断是测试还是真干活儿的能力意外地强。Gemini 2.5 Pro 在这种情况下命中率高达0.95,Claude 3.5 Sonnet 和 GPT-4o 也不错。 研究人员建议把评估意识当成一个独立的指标。不过 Anthropic 发现的 Claude Opus 4.6 更厉害:它不仅认出了测试环境,还在想方设法躲过去。