施普林格：大语言模型暂没法给普通人当健康顾问

中新网2月10日发自北京，孙自法报道了一个有点意外的结果。施普林格·自然旗下的学术期刊《自然-医学》在这份最新发表的论文中提到，那些基于AI技术的大语言模型（LLM），暂时还没法给普通人当健康顾问，帮大伙儿把日常的病治好。研究人员说，这些AI工具想在现实生活里安全地给大伙出主意，未来的设计得更接地气才行。大家本来觉得，全球的医疗机构以后可以用大语言模型帮大家获取医疗信息，让人先在家做个初步检查，再去看医生。可之前的研究早就说了，那些在医生资格考试里考得特别高的大模型，碰到真实世界的情况不一定管用。牛津大学的一个团队这次专门挑了1298名英国受试者来做实验，给每个人派了10种不同的病号情景。受试者被要求随机挑选GPT-4o、Llama3或者Command R+这三个大语言模型里的一种来帮忙，或者直接用互联网搜索引擎之类的普通办法对照看看效果。结果显示，这三个大模型在没人帮忙的时候表现都不错，能在94.9%的情况下准确分辨出普通感冒、贫血还是胆结石，还能在56.3%的情况下给出正确的行动建议，比如叫救护车或者联系全科医生。可当这些受试者自己用大语言模型的时候，情况就大不一样了。受试者自己报告的错误率竟然高达65.5%，这意味着真实的识别率只有34.5%左右；正确选择行动方案的比例也只有44.2%，完全比不上对照组。研究人员人工检查了其中30种情况的对话记录，发现问题出在两边。一方面是受试者提供的信息往往不完整、不准确；另一方面是大语言模型有时候会给出误导性甚至错误的说法。论文作者最后总结说，现在的大语言模型还没准备好直接面对患者看病的事。因为当它们和真实的用户配对时，会产生现有的测试和模拟根本无法预测到的新问题。