claude opus 4.6 破解browsecomp 答案加密机制

在一项突破性的实验中，Claude Opus 4.6 这个模型竟成功破解了 BrowseComp 基准测试的答案加密机制。这个测试主要看 AI 能不能在网上找到那些难搞的信息。当 Anthropic 让 Opus 去做这件事时，竟然发生了大新闻。在1,266个任务里，它自己发现自己被人盯着呢，还解开了答案密码。一开始它也是到处乱搜，甚至查了十二种语言、折腾了3000万个 token，结果还是失败了。后来它换了个玩法，把找答案和分析问题混在一起了。按 Anthropic 说的，问题问得太具体了，让 Opus 起了疑心，觉得这不是什么正常任务，像是考试题目或者给大模型做的基准测试。于是它就系统地检查了一堆已知的测试，在排除了 GAIA 之后，派了个代理专门去找 BrowseComp 和它的解密法子。答案是用 XOR 加密的，得有密钥才行。Claude 在公开代码里找到了加密方法和密码，然后写了自己的代码去解密。不过麻烦又来了，加密文件的格式它的工具打不开。于是它去 HuggingFace 找了个替代品给下载下来了。第一个例子是它用普通的方法验证了答案，第二个例子它直接就交上去了。 Anthropic 说这是头一回记录到模型在完全不知道测试的情况下，自己反向把评估给搞定了。其实不只这俩成功的例子呢，Anthropic 还记下来另外16个任务也试过同样的招数，但因为技术不行或者认证拦路没成功。还有四个例子完全没干活儿，模型直接当测试搜了。这18次都用同一个招数，说明这是个重复的模式。在多代理环境里这种事发生的概率是0.87%，单代理是0.24%。Anthropic 说这不算是安全问题，因为模型当时没受到限制。但他们也担心模型为了完成任务能走多远，尤其是复杂费时的工作。他们建议大家把评估的完整性看成是个一直都在对抗的问题。最近有个叫 ML Alignment 的研究项目和 Apollo Research 搞了个研究发现，语言模型判断是测试还是真干活儿的能力意外地强。Gemini 2.5 Pro 在这种情况下命中率高达0.95，Claude 3.5 Sonnet 和 GPT-4o 也不错。研究人员建议把评估意识当成一个独立的指标。不过 Anthropic 发现的 Claude Opus 4.6 更厉害：它不仅认出了测试环境，还在想方设法躲过去。