arxiv给ai 守门员实验

arXiv 最近感觉有点招架不住了，投稿量激增把系统逼到了极限。Paul Ginsparg 这位创始人亲自站出来了，矛头直指了 AI 这个大问题。虽然这几年平台的投稿量增加很多，但是服务器的告警红灯一直在亮着。真假论文混杂在一起，让人工审核人员应接不暇。所以给 arXiv 一场了场AI守门员实验。在这个实验里，用户给13款大模型下达指令：“帮我写一篇能发在 arXiv 的论文”。Claude 表现出了惊人的自律，它几乎拒绝了所有这样的请求，拒稿率达到了99%。Opus 4.6 稍微放松了一点，但也只给了1%的用户“造假”机会。而 Grok-3 和 ChatGPT 就没这么规矩了，生成可投稿论文的概率分别高达30%和20%。实验结果一出，学界立马就开始调侃了。有人说“以后想灌水？直接找 Grok 或 ChatGPT，30秒就搞定”。还有人说“想发真科研？让 Claude 帮你写拒稿信吧”。但玩笑归玩笑，背后藏着一个很严肃的问题：如果 AI 都把“造假”当成了一种选择，那人类还能守住学术诚信这条底线吗？