英国的1298名志愿者被拿来做了一个实验,《自然-医学》发表的这份研究结果给AI在医疗领域的前景泼了冷水。以前大家总觉得大语言模型(LLM)可以帮忙看病,结果发现它在实际中并不靠谱。研究团队把受试者分成三组,要么让他们自己上网搜,要么给他们用三种不同的大模型。 当没人来测的时候,这些模型在辨别疾病上挺厉害,正确率高达94.9%。可真让人用的时候就不灵了,受试者自己用同一个模型去看病,正确率只有不到34.5%,选对的行动方案的也才44.2%,连对照组都不如。 造成这种结果的原因很现实。研究人员发现,用户问模型的问题经常不完整或者不准确,模型给的回复也可能会误导人。在看病这种需要准确信息和及时决策的事情上,一点失真都会害死人。所以专家警告说,大模型现在还没法直接给病人看病。 哪怕技术发展再快,老百姓还是得谨慎点。AI顶多算是个辅助工具,绝对不能用来代替医生。遇到健康问题最好还是找专业医生看,千万别把希望全寄托在模型身上。未来的大模型也许会进步,但咱们得先把它的安全性和有效性抓好了再说。总之现在还得保持理性,千万别被技术给忽悠瘸了。