minimax给大伙儿开源了个叫octocodingbench的东西，专门来试试大模型写代码到底有多厉害。

MiniMax公司给大伙儿开源了个叫OctoCodingBench的东西，专门来试试大模型写代码到底有多厉害。现在大家都在盯着这块，想看看怎么用AI帮咱们把活干好。以前咱们评判模型好坏，可能就是看它写的一小段代码对不对。这次不一样了，他们给了一个更全面的测评，看模型能不能把一个完整的编程问题给搞定。研究了一下市面上的好几个模型后，发现了个挺有意思的情况。有10%到30%的大模型，在单独面对一个复杂任务（Instance-level Success Rate, ISR）时，成功率掉得挺厉害。可是要是拆开来看一个个小步骤（Check-level Success Rate, CSR），它们能做到80%以上都对。这说明模型虽然在细节上能达标，但是一到整体逻辑上就露馅了。好比写个程序得先搞清楚整个流程、前后怎么配合，这些事儿现在的大模型还真不太擅长。还有一个让人头疼的是，它们跟人聊天改需求的时候也不靠谱。一轮对话还勉强能听懂指令，轮数多了就容易迷糊，不知道下一步该干啥了。这就是长文本理解还有记忆保持的问题没解决好。大家也开始担心代码生成的安全和规范问题了。以前光看最后功能对不对就行，现在得看写代码的过程合不合规矩、有没有漏洞。特别是以后要是用AI写银行软件或者造机器的时候，这些过程性指标绝对不能马虎。不过好消息是，开源社区的力量还是很强的。那些免费的模型进步特别快，跟那些关着门的先进模型差距正在缩小。MiniMax这回把评测标准公布出来了，让大家都能在一个公开的平台上比一比。这就好比给大伙儿找了面镜子，既能看清楚自己的长处和短处，又能知道到底该往哪儿使劲儿。未来想让AI真的能帮咱们干活儿，光靠跑得快是不行的。必须得在安全、可靠、好用这几个方面一起下功夫。这也算是告诉咱们，技术要想往前走得踏实、走得稳当，就得把这些细节都给吃透了才行。