ai 编程到底是个啥,难道就是个笑话吗?

大家都在说AI能把代码写得跟人似的,这其实有点夸张了。程序员小李那天晚上就遇到了这么一档子事儿。他正琢磨着写个登录接口,顺手就让AI助手Claude帮着干了,结果十来分钟就搞出来了,而且一跑就成。可这只是个开头,接下来的需求一个接一个地冒出来:验证码、三方登录、权限系统、多租户适配……这改改那改改,小李心里头的火就越来越旺。折腾到第五轮的时候,他发现AI生成的代码简直乱成一团,一个函数居然写了五百多行,逻辑还在那儿死循环八遍。这时候只要稍微改动一下新功能,旧的就跟着崩溃了。最后他实在受不了,干脆把整个模块重新写了一遍。他心里嘀咕:AI编程到底是个啥,难道就是个笑话吗? 最近,威斯康星麦迪逊大学和MIT的研究团队把这事给捅破了。他们说现在的AI编程Agent虽然能一次性把代码写出来跑得挺顺,但让它去做长期迭代的活儿就不靠谱了。为了证明这点,他们搞了个叫“SlopCodeBench”的测试。咱们平时看到的那些AI编程能力测评往往是一锤子买卖,就是给个固定需求,看它能不能一次性写个能跑的代码。但实际开发哪是这么回事?需求总是变来变去的。这个SlopCodeBench完全模拟了真实场景,弄了20个常见的开发任务,每个任务又分成93个越来越复杂的检查点。它不给你内部接口看,也不给你测试用例,全靠AI自己瞎琢磨。最狠的是还得在旧代码基础上改东西,不允许你直接推翻重来。 研究者特别盯着两个指标:结构侵蚀和冗余度。结构侵蚀就是代码逻辑全塞在几个“超级函数”里头了;冗余度就是那些本来能简化的地方硬是没简化。结果一出来可吓人了,市面上的11个AI模型——包括ClaudeOpus还有GPT系列——在这两项指标上表现都很差劲。特别是在需求变来变去的时候,代码质量掉得飞快。比如说在做电路模拟器这个任务时,ClaudeOpus的代码经过八轮迭代后函数行数暴涨,逻辑重复严重,维护成本那是相当高。 研究者还拿AI生成的代码跟开源项目比了一下,发现AI的代码比人写的要臃肿得多。就算程序员费劲巴拉地优化提示词想让AI输出变好点,结果还是一样烂。初始代码可能好看点了,但一迭代就不行了,成本还更高了。 说到底啊,AI编程Agent缺乏设计纪律。人类开发者会给代码留扩展点、搭好结构;而AI只看眼前需求,不管后面的事儿。所以现在的AI更像是个能干的实习生处理点简单活还行;在需要长期迭代的大项目里,最后背锅的还是程序员。咱们别被AI一开始的短期胜利给骗了!真正的挑战是怎么维护迭代代码。未来的AI编程要是想长久发展,还得靠更深层次的思考设计才行。