这张图告诉你,大模型到底聪不聪明全看它背了多少书

没有训练语料的大模型就像个傻子,哪怕问起它有没有智能,大多数人也会毫不犹豫地点头。毕竟现在它都能替人干很多活了,确实挺神奇。但大家千万别把它当神仙,它不过是个算数学的语言模型,完全是靠统计规律来运行的。要是让它做没学过的题,也就是那种统计数据中不存在的题目,那它连个数字都写不出来。 这次有两个老外搞了个实验,拿了五个最火的大模型开刀:GPT-5.2、O4-mini、Gemini 3 Pro、Qwen3-235B还有Kimi K2。他们逼着这些模型用五种特别冷门的编程语言——Brainfuck、Befunge-98、Whitespace、Unlambda和Shakespeare——来写代码解决问题。选这些语言有讲究,网上压根找不到多少资料,根本没法用来喂给大模型学习。 猜猜看结果咋样?结果用一句话说就是惨不忍睹。五个模型平均下来答题正确率只有3.8%,算下来100道题里也就只能答对3.8道。要是换成Python这种随处可见的语言,它们的正确率能飙到90%。最要命的是,那仅有的几道对的题目还全是入门级别的基础题。稍微难点的(初级、中级、高级),这五个大模型全都全军覆没了。 这就说明了一点:大模型到底聪不聪明全看它背了多少书。Python语料多得是,它就学了一大堆现成的经验,处理Python问题自然手到擒来;要是换了那种没啥资料的冷门语言,大模型根本没机会学,那表现简直跟弱智没两样。 这下就有个让人挠头的问题来了:假如有一门很冷的语言没什么现成的资料,但是有一本写得特别详细的使用手册。要是我们把这本手册教给大模型,它能真的学会用这种语言编程吗?