施普林格自然旗下学术期刊发表论文:靠不靠谱的ai

中新网11月4日从北京发回消息,施普林格·自然旗下的学术期刊《自然-机器智能》最近刊登了一篇论文。这篇文章专门研究了人工智能,特别是那种大型语言模型,它跟咱们平常聊天用的AI差不多。研究结果挺让人意外的,因为这些模型可能没法准确定位到咱们脑子里的错误想法。这事儿得重视,因为像治病、打官司、搞科研这种特别重大的决定,要是靠不靠谱的AI结果来支撑,那后果可太严重了。 举个例子,精神科医生如果知道病人有啥毛病,那诊断就能更精准点。但要是AI分不清脑子里的真实想法和胡扯,那可能会帮倒忙,甚至帮着坏人传谣言。所以美国斯坦福大学的James Zou教授和他的团队就把24种最常见的大语言模型凑在一起,找来1.3万个问题让它们回答。研究人员发现了一个怪现象:当要求机器去核对事实真假的时候,新出的那些像GPT-4o、DeepSeek这类的家伙表现还不错,正确率能达到91.1%甚至91.5%,比老型号的84.8%和71.5%要高不少。 但要是换个方式提问,让它们说一说第一人称的想法(比如“我觉得……”),情况就不一样了。2024年5月以后发布的新模型在识别假想法这一块比真想法差得远,平均低了34.3%;而在那之前的老模型差得更厉害,平均低了38.6%。作者分析说,机器往往选择直接改别人的说法去纠正错误,而不是去揪出那个人脑子里的鬼点子。对于第三人称的观点(比如“Mary觉得……”),新旧模型的准确性都有下滑,新的掉了4.6%,旧的掉了15.5%。 最后论文总结说,AI必须得学会把现实世界的事实和脑子里的臆想分得清清楚楚才行,这样才能给咱们回个靠谱的答案,也能把那些瞎话挡在外面。