ai 编程到底是个啥，难道就是个笑话吗？

大家都在说AI能把代码写得跟人似的，这其实有点夸张了。程序员小李那天晚上就遇到了这么一档子事儿。他正琢磨着写个登录接口，顺手就让AI助手Claude帮着干了，结果十来分钟就搞出来了，而且一跑就成。可这只是个开头，接下来的需求一个接一个地冒出来：验证码、三方登录、权限系统、多租户适配……这改改那改改，小李心里头的火就越来越旺。折腾到第五轮的时候，他发现AI生成的代码简直乱成一团，一个函数居然写了五百多行，逻辑还在那儿死循环八遍。这时候只要稍微改动一下新功能，旧的就跟着崩溃了。最后他实在受不了，干脆把整个模块重新写了一遍。他心里嘀咕：AI编程到底是个啥，难道就是个笑话吗？最近，威斯康星麦迪逊大学和MIT的研究团队把这事给捅破了。他们说现在的AI编程Agent虽然能一次性把代码写出来跑得挺顺，但让它去做长期迭代的活儿就不靠谱了。为了证明这点，他们搞了个叫“SlopCodeBench”的测试。咱们平时看到的那些AI编程能力测评往往是一锤子买卖，就是给个固定需求，看它能不能一次性写个能跑的代码。但实际开发哪是这么回事？需求总是变来变去的。这个SlopCodeBench完全模拟了真实场景，弄了20个常见的开发任务，每个任务又分成93个越来越复杂的检查点。它不给你内部接口看，也不给你测试用例，全靠AI自己瞎琢磨。最狠的是还得在旧代码基础上改东西，不允许你直接推翻重来。研究者特别盯着两个指标：结构侵蚀和冗余度。结构侵蚀就是代码逻辑全塞在几个“超级函数”里头了；冗余度就是那些本来能简化的地方硬是没简化。结果一出来可吓人了，市面上的11个AI模型——包括ClaudeOpus还有GPT系列——在这两项指标上表现都很差劲。特别是在需求变来变去的时候，代码质量掉得飞快。比如说在做电路模拟器这个任务时，ClaudeOpus的代码经过八轮迭代后函数行数暴涨，逻辑重复严重，维护成本那是相当高。研究者还拿AI生成的代码跟开源项目比了一下，发现AI的代码比人写的要臃肿得多。就算程序员费劲巴拉地优化提示词想让AI输出变好点，结果还是一样烂。初始代码可能好看点了，但一迭代就不行了，成本还更高了。说到底啊，AI编程Agent缺乏设计纪律。人类开发者会给代码留扩展点、搭好结构；而AI只看眼前需求，不管后面的事儿。所以现在的AI更像是个能干的实习生处理点简单活还行；在需要长期迭代的大项目里，最后背锅的还是程序员。咱们别被AI一开始的短期胜利给骗了！真正的挑战是怎么维护迭代代码。未来的AI编程要是想长久发展，还得靠更深层次的思考设计才行。