ai 模型有潜力提升医疗匮乏地区的诊断水平

2月6日发表于《自然-健康》的两项研究证明,AI模型有潜力提升医疗匮乏地区的诊断水平。中国科学报报道,这些大语言模型(LLM)即使在像卢旺达和巴基斯坦这样的资源有限的地区,也能超过训练有素的临床医生。英国牛津大学人工智能(AI)伦理研究所的Caroline Green提到,这些论文展示了LLM可以帮助中低收入国家的医生提高护理质量。在医学领域,这些LLM不仅能通过医学研究生考试,还能辅助医生进行诊断。尽管这些结果是在受控环境下获得的,研究人员还是想知道这些LLM在真实环境中表现如何。为了找出答案,两个独立团队分别在卢旺达和巴基斯坦开展了研究。在卢旺达,PATH的首席AI官Bilal Mateen带领团队测试了5个LLM能否给100个社区卫生工作者提供准确的临床信息。这一地区缺少医生,很多工作都是由培训不足的社区工作者完成。 Mateen团队让当地约100名社区卫生工作者列出了5600个最常被问到的问题,然后把其中约500个问题的答案与当地医生的回答进行对比。结果显示,在11个评估指标上,所有LLM的表现都比医生好。还有就是LLM能用卢旺达语回答约100个问题。除了全天候服务和较低的成本外(医生费用为5.43美元、护士为3.80美元,英语回答成本为0.0035美元、卢旺达语为0.0044美元),LLM也避免了一些人类医生可能存在的错误。 美国贝斯以色列女执事医疗中心的Adam Rodman对把AI和人类表现比较持怀疑态度。他认为书面评估更适合衡量模型性能而不是人类表现。在巴基斯坦拉合尔管理科学大学的Ihsan Qazi领导下进行了一项试验。这个试验让58名执业医师接受20小时培训以使用GPT-4o辅助诊断,并警惕可能出现的错误。 结果表明使用GPT-4o辅助诊断的医生得分明显高于使用传统资源的医生。虽然AI得分高于医生中位数表现但也有31%的病例显示医生表现更好。Qazi认为这是因为AI可能遗漏临床警示特征和背景因素等重要信息。Qazi预计这些结果适用于其他国家但还需要用不同模型进行验证。 Caroline Green提醒要警惕AI可能带来的偏见和患者数据保密问题。Qazi警告如果对AI过度依赖可能会导致医生不加质疑地接受有缺陷的答案。