大家好,今天跟你们聊个事儿,特别有意思。最近美国华盛顿州立大学有个团队做了个研究,他们拿那个大火的ChatGPT去做了个实验,结果挺吓人的。他们发现啊,要是你在一个问题上连着问10次,ChatGPT立马就开始怀疑人生了,前后回答那是真的矛盾,简直让人看不懂。 这个研究是由华盛顿州立大学商学院的Mesut Cicek教授带着团队做的。他们从商业期刊论文里找了719条研究假设,然后把这些假设反复提交给ChatGPT,请它来判断这些说法到底有没有依据。说白了,就是让AI来辨别真假。为了看清楚ChatGPT到底靠不靠谱,他们特意让每条假设都问了10次。 最开始在2024年做实验的时候,ChatGPT的表面正确率看起来还不错,达到了76.5%。到了2025年他们又试了一下,这回涨到了80%。不过这两个数字可都是水分的哦,只要你把那些靠蒙混过关的情况一剔除,结果就完全不一样了。研究人员把数据按随机猜测做了调整之后发现,模型的真实表现其实也就比扔硬币高了个约60%,这么看连及格线都达不到。 Cicek教授还特别强调了一点,就是ChatGPT识别错误信息的能力特别差。它判断假命题的正确概率只有16.4%,这成绩可真不咋地。还有就是一致性问题也很严重。哪怕你在完全一样的提示下连续问它10次,它也不见得每次都给同样的答案。大约只有73%的情况下它能保持回答一致。 在具体的例子里更是离谱,有的时候同一个假设的10次回答里,它会一会儿说真一会儿说假;甚至出现过一半说是真、另一半说是假这种极端情况。 这项研究最后发表在了《Rutgers商业评论》上。作者认为这个结果说明咱们在做重要决策的时候,尤其是涉及到复杂推理或者细微差别的时候,绝对不能太迷信生成式AI。Cicek说现在的大语言模型虽然能说得很流畅、很有说服力,但这并不代表它们真的懂事儿。它们其实就是在死记硬背和机械匹配,能提供点洞见而已。 具体来说呢,团队里有华盛顿州立大学的Cicek、南伊利诺伊大学的Sevincgul Ulu、罗格斯大学的Can Uslay还有东北大学的Kate Karniouchina。他们选的这719条商业研究假设都是受很多变量影响的复杂推理过程。要把这么复杂的事情压缩成一个简单的“是/否”判断,对AI的理解能力简直是个严峻的考验。 有意思的是他们分别在2024年测了免费版ChatGPT-3.5,在2025年测了更新的ChatGPT-5 mini。结果发现两代模型的整体表现差不多。同样在调整了随机猜对的因素后,两次实验里模型相对于50%的蒙对概率提高的幅度也只有约60%。 这个研究还指出了一个很重要的问题:大型语言模型在“语言流畅度”和“真实推理能力”之间有个巨大的落差。它们能生成看起来很完整、很自然的文本,可一旦涉及到更深层次的逻辑判断、证据权衡或者识别错误信息的时候就很容易翻车。 基于这些发现,研究人员建议企业管理者在使用ChatGPT这类工具的时候一定要仔细检查输出结果,保持必要的怀疑态度。他们还呼吁公司内部要多培训员工,让大家明白AI的长处和短处在哪,别把它当成什么权威了。 Cicek教授最后说他不反对AI自己也在用它,但必须要非常小心地对待它。毕竟这项工作也延续了之前关于“AI被过度炒作”的研究脉络。比如去年有个全国性调查就显示,如果企业在营销里强调“由AI驱动”,反而会降低部分消费者的购买意愿。所以大家记住一句话:无论如何都要保持怀疑。