2023年,中国科研团队搞出了个大新闻,把AI医疗评估的新规矩定下来了。这次搞出的标准名叫CSEDB,“临床安全-有效性双轨基准”,听着挺绕,但很关键。 这个标准是未来医生科研团队牵头弄的,还拉上了北京协和医院、中国医学科学院肿瘤医院、解放军总医院、复旦大学附属华山医院这些顶尖医院的专家,一共32位大佬一起研究出来的。他们把标准分成了23个核心专科,里面有30项核心指标。为了能更准确地看清楚问题,CSEDB把风险等级从1分(比如读报告对不对)一路排到了5分(比如药和器官不匹配这种要命的事儿),打分的时候还根据危险程度加权。 过去大家测AI医疗大多是看它在标准化的医学问题上答对了多少,但这其实测不准它在实际看病时的表现,尤其是涉及到病人死活的时候。CSEDB就专门解决这个痛点,不再看答得对不对,而是要看在治病救人这事儿上它到底靠不靠谱。为了模拟真实的看病场景,研究团队还建了一个包含2069个开放式问答条目的评估库,覆盖了26个临床专科。 有了这个严格的评估体系,咱们就有办法客观衡量全球的AI大模型到底适不适合用在看病上。于是就有了一次大规模的测评。像DeepSeek-R1、OpenAI o3、Gemini-2.5、Qwen3-235B还有Claude-3.7这些知名模型都被拉进来比试了一番。结果挺喜人,我国自主研发的MedGPT表现最好。它在总分、安全性和有效性这三项核心指标上都拿了第一。 为什么MedGPT这么牛?因为它研发的初衷就是要像真医生一样思考。不像有的AI只追求说得像个大夫(听起来像个大夫),MedGPT的技术路径是模仿人脑的临床认知逻辑,而不是只靠大数据去堆砌。自2023年起,MedGPT已经开始在真实患者中验证能力了。目前有超过1万名医生在未来医生平台上和病人交流,系统每周能收集到2万条真实诊疗数据。靠着“反馈即迭代”的优化机制,MedGPT的诊断准确率每个月都在稳步提升,保持在1.2%到1.5%之间。 这次“临床安全-有效性双轨基准”的发布和测评结果,是中国在医疗AI基础研究和标准制定上的一个大突破。它不光给全世界的AI研发指明了方向(要安全又有效),还为AI技术安全地进入医疗领域打下了基础。MedGPT的表现说明咱们在医疗AI应用上是真的在搞落地的东西(坚持临床导向)。 以后要是大家都用这种科学的评估标准来做事(规范起来),再加上产、学、研、医大家一起努力创新(携手共进),人工智能肯定能更好地帮助咱们看病(赋能健康事业),让大家享受到更好更便宜的医疗服务。