“大模型的技术走在了前面,但在医疗领域的应用落地时,用于训练的隐私数据如何获取、如何保护?我觉得这非常难。”8月24日,在2023CCS成都网络安全大会期间,四川大学网络安全空间学院副院长张意接受《每日经济新闻》记者采访时直言,医疗大模型距离实际落地还很远,还有很多的问题和风险需要研究。
张意指出,理论上,大模型在医疗领域的应用场景众多。除智慧问诊外,还可以预测病人的病重程度、致死率以及30天内再度入院的可能性。甚至可以用于管理医院床位、预测病人治疗费用能够被保险公司报销的概率。
但讨论大模型应用前,必须充分认识医疗行业的特殊性。医疗领域容错率低,通用大模型偶发的“胡说八道”在医疗场景下不仅可能导致误诊,甚至还可能对患者的生命健康造成严重伤害。张意认为,通用大模型不能满足医疗领域对安全性、性能型、可靠性的要求,需要重新搭建面向医疗领域的垂直大模型。
专业能力训练需要大量数据,然而,医疗数据大多是私有数据,鉴于安全、隐私、知识产权等多方因素,难以提供给外部厂商用于模型训练。
“通用大模型训练用的全是公开的对话、演讲,但医疗大模型训练用的数据全部都是个人隐私,医生、病人的数据能不能用,什么时候愿意让你用?我觉得这点特别难。”谈到大模型的数据获取,张意认为,目前并没有好的解决方式。
据介绍,现阶段一个应对方法是加密处理,即把医疗数据加密处理后的译文传输到云端大模型服务器上,再将得到的结果解密传回。测试表明,加密和明文操作下的生成结果差别不大。
此外,张意还指出,大模型在黑盒(流程)内,生成一个概率性、预测性的结果,这怎么用于辅助诊断?其实也需要医生和学者共同研究。
“我们现在最大的难题是,需要基于专业知识和数据,训练一个过程安全可靠的领域大模型,也是我们研究落地最重要的一个研究方向。”张意直言。
编辑/范辉