AI预测蛋白质结构近日又取得新突破。“深层思维”公司宣布,该公司开发的人工智能程序“阿尔法折叠”(AlphaFold)已预测出约100万个物种的超过2亿种蛋白质的结构,涵盖科学界已编录的几乎每一种蛋白质。
据介绍,这些信息将上传至可公开访问的“阿尔法折叠蛋白质结构数据库”。该数据库由“深层思维”公司和欧洲生物信息学研究所合作开发,去年7月上线时已包含98.5%的人类蛋白质结构。
近几年,AI预测蛋白质结构成绩亮眼,各大国内外企业也纷纷入局。在AI激活、数据驱动下,AI预测蛋白质结构正从幕后走向台前,其产业化发展也正进入一个新的阶段。
AI预测蛋白质结构背后的计算生物学
蛋白质的三维结构决定了它在细胞中的功能。明确蛋白质的结构信息,在药物研发等领域十分重要。传统上,研究人员使用X射线晶体学等手段测定蛋白质结构,耗时费力且花销不菲,却常无法获得所需结果。“阿尔法折叠”通过学习实验测定出的蛋白质结构信息,来预测其他蛋白质的三维结构,其预测准确度相当高。欧洲生物信息学研究所的数据显示,阿尔法折叠有35%的预测是高度准确的,可媲美实验测定结果;另有45%的预测足以在很多场景使用。
人工智能极大提升了蛋白质结构预测的效率,这也是AI预测蛋白质结构近几年被人熟知的原因,但其背后的计算生物学却已经历多年发展。计算生物学是根据不同类型的生物数据构建算法和模型,从而理解生物系统本身,并推进相关研究及应用的学科。
随着人工智能的发展,计算生物学正在被激活。浦发硅谷银行《医疗健康行业投资与退出趋势》报告显示,2021年美国市场投向计算生物学公司的金额达到59亿美元,一年增长高达3倍,超过非计算生物学公司投资的两倍。在2019年以来首次完成种子轮/A轮融资的707家生物制药和研发工具公司中,计算生物学公司有129家,占比为18%。2021年对计算生物学公司的投资额激增,几乎是2019年和2020年募集资金总和的两倍。
在我国,各研究机构和企业也正开展相关布局。如近日,由清华大学人工智能产业研究院孵化的AI制药企业华深智药对外宣布,其在AI和生命科学结合领域取得突破:研究人员在蛋白质结构预测方面开发出全新技术。据华深智药官方介绍,该技术仅从单条蛋白序列就能预测出蛋白质3D结构的算法。
加速药物研发 为精准医疗提供助力
计算生物学正在改善传统制药行业高投入、高技术、高风险、长周期的特性,加速药物研发过程。有分析机构认为,目前我国计算生物学发展的主要方向仍是AI制药,相关创业公司在2017—2021年呈现出爆发式增长,且都已获融资。从商业模式上看,整个行业以面向企业提供服务为主。
除此之外,计算生物学也为精准医疗的实现提供了助力。
有分析机构认为,在应用方面,计算生物学产业可大致分为三类:一是计算推演生物性质及原理,如蛋白质结构预测、致病机理研究、蛋白质相互作用预测、抗体和抗原的表位预测、基于基因组学寻找疾病成因或寻找新型的生物标志物等。二是搭建预测及判断模型,如AI制药中基于靶点的化合物性质预测,疾病诊断、监控、治疗建模,涵盖细胞、器官、人体的生物模拟器等。三是对生物体进行控制改造,如新疗法、药物开发、精准医疗和生物制造。其中精准医疗或将成为计算生物学长期的重点发力方向。在这个方向上,国外已出现了基于多组学布局的企业。
如2021年11月,阿斯利康、德国默克、辉瑞和梯瓦等6家大药厂与亚马逊、以色列生物科技基金共同推出了创新实验室——AION Labs。该实验室的模式是:在以色列初创生态系统下,建立和投资基于AI和计算生物学技术进行药物发现和开发的初创公司,并为这些公司提供资源、指导,以及合作开发新技术,最后反哺制药行业。AION Labs 在一份声明中指出,其投资的初创公司将利用AI和云计算更快、更高效地找到新的治疗方法,推进以患者为中心的精准医疗。
相关链接
实现商业化 计算生物学还需迈过这些坎
虽然计算生物学已逐渐走入人们的视野,但它要想实现商业化还面临着一些关键瓶颈问题有待突破。
首先是对生物底层原理的进一步明确。目前,还有大量关于生物学本身的底层机制有待研究透彻,在进行模型构建、生物验证时,需要引入这些知识来减少不符合领域认知的偏差,保证准确率。
其次是要有统一的计算和数据框架。计算生物学要最终落地,模型要能够覆盖多组学数据、多环节及功能并行。同时,还需要保证计算生物学中的多种异构数据,例如图像、视频、分子图谱、DNA代码、基因表达、电信号等,有明确的标准和通用格式,以便在不同算法和平台之间互操作。
此外,还有消费级数据的获取、工程落地能力、行业信任与模型可解释性问题,以及数据隐私问题等。
编辑/范辉