中新网2月10日发自北京,孙自法报道了一个有点意外的结果。施普林格·自然旗下的学术期刊《自然-医学》在这份最新发表的论文中提到,那些基于AI技术的大语言模型(LLM),暂时还没法给普通人当健康顾问,帮大伙儿把日常的病治好。研究人员说,这些AI工具想在现实生活里安全地给大伙出主意,未来的设计得更接地气才行。 大家本来觉得,全球的医疗机构以后可以用大语言模型帮大家获取医疗信息,让人先在家做个初步检查,再去看医生。可之前的研究早就说了,那些在医生资格考试里考得特别高的大模型,碰到真实世界的情况不一定管用。牛津大学的一个团队这次专门挑了1298名英国受试者来做实验,给每个人派了10种不同的病号情景。受试者被要求随机挑选GPT-4o、Llama3或者Command R+这三个大语言模型里的一种来帮忙,或者直接用互联网搜索引擎之类的普通办法对照看看效果。 结果显示,这三个大模型在没人帮忙的时候表现都不错,能在94.9%的情况下准确分辨出普通感冒、贫血还是胆结石,还能在56.3%的情况下给出正确的行动建议,比如叫救护车或者联系全科医生。可当这些受试者自己用大语言模型的时候,情况就大不一样了。受试者自己报告的错误率竟然高达65.5%,这意味着真实的识别率只有34.5%左右;正确选择行动方案的比例也只有44.2%,完全比不上对照组。 研究人员人工检查了其中30种情况的对话记录,发现问题出在两边。一方面是受试者提供的信息往往不完整、不准确;另一方面是大语言模型有时候会给出误导性甚至错误的说法。论文作者最后总结说,现在的大语言模型还没准备好直接面对患者看病的事。因为当它们和真实的用户配对时,会产生现有的测试和模拟根本无法预测到的新问题。