北京青年报

张意：医疗大模型隐私数据获取与保护是难点

每日经济新闻 2023-09-01 11:23

“大模型的技术走在了前面，但在医疗领域的应用落地时，用于训练的隐私数据如何获取、如何保护？我觉得这非常难。”8月24日，在2023CCS成都网络安全大会期间，四川大学网络安全空间学院副院长张意接受《每日经济新闻》记者采访时直言，医疗大模型距离实际落地还很远，还有很多的问题和风险需要研究。

张意指出，理论上，大模型在医疗领域的应用场景众多。除智慧问诊外，还可以预测病人的病重程度、致死率以及30天内再度入院的可能性。甚至可以用于管理医院床位、预测病人治疗费用能够被保险公司报销的概率。

但讨论大模型应用前，必须充分认识医疗行业的特殊性。医疗领域容错率低，通用大模型偶发的“胡说八道”在医疗场景下不仅可能导致误诊，甚至还可能对患者的生命健康造成严重伤害。张意认为，通用大模型不能满足医疗领域对安全性、性能型、可靠性的要求，需要重新搭建面向医疗领域的垂直大模型。

专业能力训练需要大量数据，然而，医疗数据大多是私有数据，鉴于安全、隐私、知识产权等多方因素，难以提供给外部厂商用于模型训练。

“通用大模型训练用的全是公开的对话、演讲，但医疗大模型训练用的数据全部都是个人隐私，医生、病人的数据能不能用，什么时候愿意让你用？我觉得这点特别难。”谈到大模型的数据获取，张意认为，目前并没有好的解决方式。

据介绍，现阶段一个应对方法是加密处理，即把医疗数据加密处理后的译文传输到云端大模型服务器上，再将得到的结果解密传回。测试表明，加密和明文操作下的生成结果差别不大。

此外，张意还指出，大模型在黑盒（流程）内，生成一个概率性、预测性的结果，这怎么用于辅助诊断？其实也需要医生和学者共同研究。

“我们现在最大的难题是，需要基于专业知识和数据，训练一个过程安全可靠的领域大模型，也是我们研究落地最重要的一个研究方向。”张意直言。

编辑/范辉