chatgpt 到底靠不靠谱，他们特意让每条假设都问了10次

大家好，今天跟你们聊个事儿，特别有意思。最近美国华盛顿州立大学有个团队做了个研究，他们拿那个大火的ChatGPT去做了个实验，结果挺吓人的。他们发现啊，要是你在一个问题上连着问10次，ChatGPT立马就开始怀疑人生了，前后回答那是真的矛盾，简直让人看不懂。这个研究是由华盛顿州立大学商学院的Mesut Cicek教授带着团队做的。他们从商业期刊论文里找了719条研究假设，然后把这些假设反复提交给ChatGPT，请它来判断这些说法到底有没有依据。说白了，就是让AI来辨别真假。为了看清楚ChatGPT到底靠不靠谱，他们特意让每条假设都问了10次。最开始在2024年做实验的时候，ChatGPT的表面正确率看起来还不错，达到了76.5%。到了2025年他们又试了一下，这回涨到了80%。不过这两个数字可都是水分的哦，只要你把那些靠蒙混过关的情况一剔除，结果就完全不一样了。研究人员把数据按随机猜测做了调整之后发现，模型的真实表现其实也就比扔硬币高了个约60%，这么看连及格线都达不到。 Cicek教授还特别强调了一点，就是ChatGPT识别错误信息的能力特别差。它判断假命题的正确概率只有16.4%，这成绩可真不咋地。还有就是一致性问题也很严重。哪怕你在完全一样的提示下连续问它10次，它也不见得每次都给同样的答案。大约只有73%的情况下它能保持回答一致。在具体的例子里更是离谱，有的时候同一个假设的10次回答里，它会一会儿说真一会儿说假；甚至出现过一半说是真、另一半说是假这种极端情况。这项研究最后发表在了《Rutgers商业评论》上。作者认为这个结果说明咱们在做重要决策的时候，尤其是涉及到复杂推理或者细微差别的时候，绝对不能太迷信生成式AI。Cicek说现在的大语言模型虽然能说得很流畅、很有说服力，但这并不代表它们真的懂事儿。它们其实就是在死记硬背和机械匹配，能提供点洞见而已。具体来说呢，团队里有华盛顿州立大学的Cicek、南伊利诺伊大学的Sevincgul Ulu、罗格斯大学的Can Uslay还有东北大学的Kate Karniouchina。他们选的这719条商业研究假设都是受很多变量影响的复杂推理过程。要把这么复杂的事情压缩成一个简单的“是/否”判断，对AI的理解能力简直是个严峻的考验。有意思的是他们分别在2024年测了免费版ChatGPT-3.5，在2025年测了更新的ChatGPT-5 mini。结果发现两代模型的整体表现差不多。同样在调整了随机猜对的因素后，两次实验里模型相对于50%的蒙对概率提高的幅度也只有约60%。这个研究还指出了一个很重要的问题：大型语言模型在“语言流畅度”和“真实推理能力”之间有个巨大的落差。它们能生成看起来很完整、很自然的文本，可一旦涉及到更深层次的逻辑判断、证据权衡或者识别错误信息的时候就很容易翻车。基于这些发现，研究人员建议企业管理者在使用ChatGPT这类工具的时候一定要仔细检查输出结果，保持必要的怀疑态度。他们还呼吁公司内部要多培训员工，让大家明白AI的长处和短处在哪，别把它当成什么权威了。 Cicek教授最后说他不反对AI自己也在用它，但必须要非常小心地对待它。毕竟这项工作也延续了之前关于“AI被过度炒作”的研究脉络。比如去年有个全国性调查就显示，如果企业在营销里强调“由AI驱动”，反而会降低部分消费者的购买意愿。所以大家记住一句话：无论如何都要保持怀疑。