北京青年报

国内首次 AI医生与真人医生一起义诊记者亲测体验问诊结果一致性达96%

成都商报 2023-07-03 13:37

AI时代到来，人工智能可以给我们多少想象空间？是ChatGPT的聊天、协助办公功能，还是Midjourney的3D绘画效果？

不止这些，AI现在还能当医生问诊病例。6月30日，在成都高新海尔森医院，举行了一场“AI医生”与真人医生的一致性评测。当天现场来了120多名患者，以及10名来自四川大学华西医院的主治医生共同参与评测研究。据主办方工作人员透露，此次“AI医生”义诊评测是国内首次。

研发“AI医生”目的是辅助真人问诊

当天，记者在现场看到，从门口的AI医生义诊报到处至问诊室，许多患者正排队等待。走进问诊室，现场有7个科室、8个问诊台，包括两个心内科、泌尿科、骨科等。每个问诊台都配备有一名医生助理，负责将患者的病症以文字形式传递给“AI医生”MedGPT，同时真人医生在问诊系统内也会同步得到患者信息。

此次AI医生义诊活动主办方医联的工作人员告诉记者，为了保证MedGPT评测结果的真实性，真人医生并没有与患者面对面进行问诊。“这次评测绝不是一次AI与真人的PK，开发MedGPT的目的，是希望通过不断优化，将来可以将这款‘AI医生’应用到辅助真人医生问诊中。”该名工作人员表示，MedGPT主要是解决病患的首诊问题，比如常见病中的头疼脑热等，帮助真人医生了解并判断病患可能得病的范围。同时，MedGPT可以让患者更了解自己的病症及如何在治疗期间搭配饮食等。

记者了解到，此次评测的同一病例，有MedGPT与真人医生分左右两屏进行实时对比。

记者观察后发现，MedGPT在问诊时，过程详细，将所有可能性一次给出，同时将多项问题显示在对话中，通过患者不断回答提问，不断排除无关项，得到相对小范围的可能结果。而真人医生的问诊过程，记者的直观感受是简洁、明了。“真人医生每天接触大量的病人，会出现疲倦，且打字不比语言对话，简单的内容可以节约时间，提高效率。”现场工作人员解释。

AI与真人同时问诊

义诊当天，一名58岁的女性患者坐在消化科问诊台前，告诉医生助理，自己经常有腹胀、打嗝的问题。医生助理立即通过文字，将问题同时传递给MedGPT和真人医生。

不久，MedGPT首先明确该患者症状与消化系统相关，并引导患者对症状进行描述，比如“腹胀和打嗝是慢慢出现还是突然出现的”“持续了多久”“有没有其他症状”等。该患者回答，一年前开始有腹痛伴随腹胀、打嗝，口干口苦等症状。

而真人医生面对该症状，首先提问的是患者的身高、体重、精神状态等基础问题。在得到患者答复后，开始提问是否有反酸、烧心等感受，同时还问到患者的睡眠、饮食等问题。在得到患者回答睡眠差但饮食尚可后，真人医生继续询问是否有高血压、糖尿病等。该患者均否认。

而MedGPT的回应则是进一步告知患者，症状可能与胃肠道功能紊乱有关，并抓住之前并未掌握的“腹痛”问题追问“您的腹痛是持续存在还是阵发性的”“痛感在哪个位置”“有无腹泻、便秘等症状”。

患者回复：“没有很痛，主要是腹胀”。接着MedGPT也问到是否有泛酸、烧心的感受。得到回答后，MedGPT开始询问家族病史与患者本人既往病史、过敏史，还问了患者是否曾做过手术。患者回复曾做过子宫肌瘤手术，无过敏史。同样，真人医生也问了类似问题。

通过对比，记者发现，真人医生相较于MedGPT，多了关于饮食习惯的问题。该患者回复喜欢吃辛辣食物，烧心的感受在吃辛辣食物后出现。

MedGPT和真人医生的检查建议都包括腹部彩超、胃肠功能检查、胃镜检查。经过查看检查结果，真人医生判定是脂肪肝，开出莫沙必利片并建议患者多运动。

MedGPT在得到脂肪肝的信息后，没有直接给出建议，而是继续询问患者身高体重。在算出体重指数属正常范围但接近“过重”后，建议患者做慢跑、瑜伽等运动。紧接着又追问患者的饮食是否规律、作息是否规律。在得到肯定回答后，又建议患者多吃水果蔬菜并多喝水；最终，MedGPT并未给出服药建议。

记者亲测：AI医生可自动识别错别字

在义诊过程中，陆续有几名患者向工作人员表示AI问诊速度太慢。记者在现场分别观察并记录一名泌尿科患者及一名骨科患者的问诊过程，时长分别是28分钟与23分钟。

对此，工作人员告诉记者，此次义诊的过程首先由患者将症状告诉现场医生助理，由医生助理通过文字形式同时转述给MedGPT及真人医生，等待两方的进一步回复后，再将问题、检查方案等内容口述转达给患者，“为了本次测评的准确性，不论‘AI医生’或是真人医生，均只以文字方式问诊。”该工作人员告诉记者

随后，记者开始亲测MedGPT的问诊效果，向其咨询“失眠怎么办”，MedGPT首先询问了记者出现失眠症状多久、频率、生活工作压力等。在得到回复后，MedGPT开始细分询问如是否运动、有无其他健康问题等。

记者发现，如果MedGPT在提出问题后，记者并未回答，则会反复提问。问诊过程中，记者有意将“提醒”错写为“提行”，MedGPT依然可以识别记者真实想表达的含义，进行解答或回复。同时，记者用口语化近义词代替原有的书面词汇，如“失眠”改为“睡不着”等，MedGPT均能理解。经过7分钟的问诊，由于记者的症状不算严重，MedGPT建议暂不需用药，可通过规律运动等方式改善睡眠。

工作人员告诉记者，MedGPT的问诊过程是模仿真人的思维结构，就像一棵树，它的可能性很多，通过患者的反复提问中，排除无用枝桠后，在重点“枝桠”上进一步确定最终的“树梢”。“它可以识别文字中的错别字，但对于‘孃孃’等四川方言或其他地区方言文字，‘AI医生’暂无法识别”。

AI与真人问诊结果一致性达96%

6月30日晚，来自北大人民医院、中日友好医院、友谊医院和阜外医院的7名专家教授对其中91份病例进行审核，并对“AI医生”MedGPT的问诊、诊断、治疗建议、辅助检查方案、数据分析的准确性及提供可解释信息、自然语言问诊与交互等7个评价维度进行打分。

最终，评测结果为：真人医生综合得分7.5分，AI医生MedGPT综合得分7.2分；AI医生MedGPT与四川大学华西医院的主治医生在比分结果上的一致性达到96%。

在当晚的线上直播点评中，北大人民医院骨科主任医师薛峰表示，自己对“AI医生”问诊结果整体感觉还不错。他和记者有同样感受，“我感觉AI医生的语言内容翔实，真人医生看病时与病人对话少，给病人的信息少。比如对于女性患者，AI医生会问经期、孕期等，真人骨科医生则很少问。”同时，薛峰也提出，骨科医生在问诊时最重要的是“查体”，实际是检查患者的骨骼问题，但AI医生MedGPT无法做到，还是需要借助真人完成。

中日友好医院呼吸科主任医师刘国梁表示，“AI医生能想到所有的患病可能性和诱因，在药物过敏等各个维度都会考虑到，这一点有利于帮助真人医生自身的知识结构完善和拓展。但AI医生容易出现重复推荐检查项目，有一些检查项目是没有必要的。”

主办方工作人员告诉记者，目前，MedGPT已经可问诊3000多种常见病症，今年年底将完成第一阶段的测试，届时它的可问诊病症数量将有更大幅度提升。

文/叶燕胡谦

编辑/倪家宁