施普林格自然旗下学术期刊发表论文：靠不靠谱的ai

中新网11月4日从北京发回消息，施普林格·自然旗下的学术期刊《自然-机器智能》最近刊登了一篇论文。这篇文章专门研究了人工智能，特别是那种大型语言模型，它跟咱们平常聊天用的AI差不多。研究结果挺让人意外的，因为这些模型可能没法准确定位到咱们脑子里的错误想法。这事儿得重视，因为像治病、打官司、搞科研这种特别重大的决定，要是靠不靠谱的AI结果来支撑，那后果可太严重了。举个例子，精神科医生如果知道病人有啥毛病，那诊断就能更精准点。但要是AI分不清脑子里的真实想法和胡扯，那可能会帮倒忙，甚至帮着坏人传谣言。所以美国斯坦福大学的James Zou教授和他的团队就把24种最常见的大语言模型凑在一起，找来1.3万个问题让它们回答。研究人员发现了一个怪现象：当要求机器去核对事实真假的时候，新出的那些像GPT-4o、DeepSeek这类的家伙表现还不错，正确率能达到91.1%甚至91.5%，比老型号的84.8%和71.5%要高不少。但要是换个方式提问，让它们说一说第一人称的想法（比如“我觉得……”），情况就不一样了。2024年5月以后发布的新模型在识别假想法这一块比真想法差得远，平均低了34.3%；而在那之前的老模型差得更厉害，平均低了38.6%。作者分析说，机器往往选择直接改别人的说法去纠正错误，而不是去揪出那个人脑子里的鬼点子。对于第三人称的观点（比如“Mary觉得……”），新旧模型的准确性都有下滑，新的掉了4.6%，旧的掉了15.5%。最后论文总结说，AI必须得学会把现实世界的事实和脑子里的臆想分得清清楚楚才行，这样才能给咱们回个靠谱的答案，也能把那些瞎话挡在外面。