MiniMax公司给大伙儿开源了个叫OctoCodingBench的东西,专门来试试大模型写代码到底有多厉害。现在大家都在盯着这块,想看看怎么用AI帮咱们把活干好。以前咱们评判模型好坏,可能就是看它写的一小段代码对不对。这次不一样了,他们给了一个更全面的测评,看模型能不能把一个完整的编程问题给搞定。研究了一下市面上的好几个模型后,发现了个挺有意思的情况。有10%到30%的大模型,在单独面对一个复杂任务(Instance-level Success Rate, ISR)时,成功率掉得挺厉害。可是要是拆开来看一个个小步骤(Check-level Success Rate, CSR),它们能做到80%以上都对。 这说明模型虽然在细节上能达标,但是一到整体逻辑上就露馅了。好比写个程序得先搞清楚整个流程、前后怎么配合,这些事儿现在的大模型还真不太擅长。还有一个让人头疼的是,它们跟人聊天改需求的时候也不靠谱。一轮对话还勉强能听懂指令,轮数多了就容易迷糊,不知道下一步该干啥了。这就是长文本理解还有记忆保持的问题没解决好。 大家也开始担心代码生成的安全和规范问题了。以前光看最后功能对不对就行,现在得看写代码的过程合不合规矩、有没有漏洞。特别是以后要是用AI写银行软件或者造机器的时候,这些过程性指标绝对不能马虎。 不过好消息是,开源社区的力量还是很强的。那些免费的模型进步特别快,跟那些关着门的先进模型差距正在缩小。MiniMax这回把评测标准公布出来了,让大家都能在一个公开的平台上比一比。这就好比给大伙儿找了面镜子,既能看清楚自己的长处和短处,又能知道到底该往哪儿使劲儿。 未来想让AI真的能帮咱们干活儿,光靠跑得快是不行的。必须得在安全、可靠、好用这几个方面一起下功夫。这也算是告诉咱们,技术要想往前走得踏实、走得稳当,就得把这些细节都给吃透了才行。