EvoClaw基准测试揭示编程新挑战：模型短任务优势明显，长期系统维护能力显著不足

一、问题：单点能力亮眼，长期工程能力仍显不足近年来，智能编程工具代码补全、函数生成、单项需求实现各上进展迅速，一些公开测评的通过率也较高，由此引发“编程将被全面替代”的讨论；但软件开发的核心并不是一次性交付的代码片段，而是持续多年的系统演进：功能不断扩展、依赖持续叠加、接口频繁调整、历史兼容长期存。能否在连续迭代中保持稳定、避免引入隐患，才是工程能力的关键。近期，研究团队推出EvoClaw基准测试，尝试把“时间维度”纳入评估。该基准从开源项目的历史演进中提取真实开发轨迹，并重构为多个“里程碑”任务链：后续任务必须在继承前序成果的基础上继续开发，同时处理接口兼容、依赖冲突、隐性约束等工程问题。测试覆盖多种主流编程语言和不同复杂度项目，部分项目跨度可达数百天。结果显示，多款主流模型在长链条任务中表现明显下滑，最高综合得分约38.03分；从“全链路完整解决”的比例看，最高也仅约13.37%。任务越靠后、依赖越长，完成效果越不稳定。二、原因：软件开发是“连续依赖系统”，不是独立题目集合研究人员指出，传统评测常以单个提交、单个缺陷或单个功能为单位，容易高估工具在真实工程中的表现。真实开发具有典型的“连续依赖”特征：今天的改动要兼容既有数据库结构，明天的优化不能破坏已上线功能；看似局部的修改，可能引发跨模块连锁反应。对智能编程工具而言，短板主要体现在以下上：其一，“历史上下文”难以稳定继承。长周期工程中充满需求决策、架构约束、隐含假设和遗留约定，仅凭当前片段信息往往不足以做出正确选择。其二，“回归控制”能力不足。工具新增功能时通常能较快给出实现，但更难保证不破坏既有行为；随着迭代推进、系统复杂度上升，回归风险不断累积。其三，“技术债”容易滚动放大。为在单次任务中尽快“跑通”，工具可能倾向于选择权宜实现，短期可用但长期增加耦合与维护成本，后续迭代的改动空间被压缩，整体质量随之下滑。其四，工程约束远不止代码。版本管理规范、接口契约、异常处理、性能边界、可观测性、安全合规等要求，往往不会在单次任务描述中完整呈现，却决定系统能否长期稳定运行。三、影响：理性看待“替代叙事”，研发管理需前移风险控制业内人士认为，这类“长周期、强依赖”测试提醒行业：智能编程工具更适合在边界清晰的环节提升效率，而难以直接承担系统长期演进的全部责任。对企业研发管理来说，如果只用单次交付速度衡量工具价值，可能忽视回归缺陷、架构退化和维护成本上升带来的长期损失。对产业生态而言，评测体系缺少时间维度，容易造成能力认知偏差，进而影响工具选型、人才结构与研发流程设计。四、对策：从“写得快”转向“管得住”，以工程机制弥补短板针对暴露的问题，专家建议在应用侧与评测侧同步完善：在应用侧，应将智能编程工具纳入既有工程治理体系：一是强化自动化测试与回归测试覆盖，以可验证的质量门禁约束产出；二是推行更严格的代码审查与架构评审，由经验工程师把关关键模块；三是完善文档与接口契约管理，减少隐性约束带来的偏差；四是对工具生成代码建立可追溯机制，明确责任边界与维护策略，避免“无人认领代码”累积为风险。在评测侧，应持续推动更贴近真实场景的基准建设：通过里程碑任务链、真实依赖图、可执行构建与测试流水线，系统检验工具在连续迭代中的稳定性、兼容性与回归控制能力，为产业提供更可比、更可信的参考。五、前景：智能化将深度嵌入研发，但“系统工程能力”仍是关键门槛从趋势看，智能编程工具在标准化开发、样板代码生成、接口适配、测试用例补全等上仍有提升空间，并将持续改变研发分工与效率结构。但研究也表明，软件工程的关键并不会因工具进步而消失：架构治理、技术债管理、质量保障与长期维护，仍需要系统化方法、组织流程与工程经验共同支撑。未来竞争焦点或将从“单次生成能力”转向“长期可靠交付能力”——谁能在持续迭代中把风险降下来，谁就更接近真正可用的工程化水平。

这项研究提示我们，在拥抱人工智能带来的效率提升时，也要清楚看到其在长期工程上的局限。软件开发本就是持续迭代的过程，人工智能的成熟同样需要从单点突破走向系统能力。如何跨过这道门槛，是对研究者和产业实践的共同考验，也将影响下一阶段技术演进的方向。