中国科学院近日宣布,上海科学家利用AI发现五颗超短周期行星。无独有偶,刚刚公布的今年诺贝尔物理学奖和化学奖,AI的身影同样醒目。
当人工智能深度融入科学研究,它将带来怎样的范式变革,开启怎样的新空间?
“科研范式”这一概念第一次被提出,是在美国科学哲学家托马斯·库恩所写的《科学革命的结构》一书中。他认为,“范式”是从事某一科学的研究者群体所共同遵从的世界观和行为方式,是为了保障科研活动高效有序运转所遵循的普遍法则。
在科学发展的特定时期,通常由一种范式主导。随着主导范式被广泛接受和长期应用,往往会出现当前范式难以解释的科学发现。当这些问题逐渐积累到引发质变时,新的科研范式呼之欲出,并逐渐取代旧范式。科学的发展就是通过一系列“范式转换”实现,每一次转换都是一次科学观念的根本变革。
过去千百年来,传统范式经历了四个阶段的演化历程:第一阶段为经验范式,主要通过实验描述自然现象;第二阶段为理论范式,主要通过模型或归纳法进行科学研究;第三阶段为计算范式,指使用计算机进行仿真模拟来解决各个学科中的问题;第四阶段为数据范式,指通过大数据分析研究事物内在的关系得到结论。
而今,新一轮科技革命正以前所未有的速度改变着世界,人工智能技术在各领域的推进成为焦点。随着其快速迭代和应用场景的不断拓展,新的范式变革正在发生。
AI正成为科学“基座”
从全球层面看,长期以来,科研人员面临四个共性的痛点。其一是辛苦研究出基本原理等重要成果,但用来解决实际问题时比较困难;其二是收集、处理、分析数据的效率相对低下;其三是科研团队工作方式多为“作坊模式”,“平台作战”占极少数;其四是在材料研发等领域的突破仍依赖经验和试错方式。
而当下迅猛发展的以机器学习为代表的人工智能技术,为科学研究带来了新方法、新工具,在提升创新效能的同时,赋能产业应用的实际场景。
如今在科学研究的各个领域中,人工智能正在成为“基座”之一。例如:AlphaFold2模型成功预测了98.5%的人类蛋白质结构,其准确度高达“原子极”,可以与复杂结构生物学实验的结果相媲美;人工智能模型结合机器学习,在保持高精度的同时将分子动力学研究的范畴推向10亿个原子的新极限;基于新型算子学习的神经网络结构,在技术层面将天气预报提速了45000倍。
除科研应用层面以外,对“AI for Science(人工智能驱动科研范式)”深度研究的竞争也如火如荼。微软研究院集成机器学习、计算物理、计算化学、分子生物学、软件工程等学科领域世界级专家创立科学智能中心;哈佛大学针对治疗科学研发科学智能模型;巴黎文理研究大学依托地平线2020计划推出AI4S(AI for Science的缩写)博士项目等。
在这些背后,是各国争夺新高地的前瞻性准备,其中既有竞争,也有合作。
美国较早发起了“基于人工智能的科学研究”相关计划,且“基于AI驱动的科学”逐渐成为美国的国家性科学发展战略。早在2016年,美国发布的《国家人工智能研究和发展战略计划》报告中,便包含“基于数据驱动的以知识开发为目的的方法论”部分,鼓励利用人工智能技术来挖掘大数据中的有价值信息,发现数据中的矛盾和异常。
2018年,人工智能探索规划项目启动,其首批20余个资助方向中包括利用深度学习进行知识归纳、规律抽取相关项目,如“大机制”“文本深度挖掘与过滤”,以及“基于模型的知识导向型人工智能推理系统”。
2019年,美国阿贡、橡树岭等国家实验室联合发布报告《人工智能促进科学》,要求加速AI与各学科之间的融合与汇聚。2020年2月18日,美国能源部科学办公室发布名为《用计算机观星:机器学习如何扩展我们关于宇宙的理解》的研究报告,要求积极利用人工智能实现天文学领域前沿突破,如暗物质探索、超新星发现等。
在2023年发布的美国《国家人工智能研发战略计划(2023版)》中,“推进以数据为中心的知识发现方法”是优先发展事项之一。
2019年,英国皇家学会便发布《科学研究中的人工智能革命》,强调人工智能已成为跨领域研究人员分析大型数据集、检测以前无法预见的模式的关键工具,要求推动人工智能与蛋白质结构预测、气候变化分析、天文观测等领域的汇聚与融合。
2021年,法国公共转型与服务部部长蒙查林提交了《数据、算法和源代码政策:2021—2024路线图》,其关键目标之一是建立一个开源项目办公室,为人工智能应用于教育和科研领域提供数据、源代码支撑。
2020年,日本国立材料研究所建立了科学数据分析和机器学习平台,以加速材料发展。
天然优势驱散“乌云”
事实上,人工智能技术在科学研究中日益重要的地位,不仅源于其自身迭代发展,也因为当代科学头顶“两朵乌云”的笼罩,被动成就。
第一朵“乌云”,来自数据灾难。科学研究正不可避免地步入巨量数据时代,特别是在材料科学、合成生物学、化学、天文学、地球科学等领域,所需解读的科学数据呈爆炸式增长,要想从中获取规律性知识,传统方法(计算机仿真、手动实验等)往往难以应对。
如2005—2015年间,基因组学研究所产生的序列数据总量以约每7个月翻一番的速度增长。天文学领域中,1990年开始运行的哈勃太空望远镜每周传回约20GB的原始数据。地球科学领域同样如此,统计显示,传输到美国地震学研究联合会数据管理中心的数据呈指数级增长态势,来自全球范围内的8500个观测站台的累计数据,年总量达689.9TiB(Tebibyte的缩写,表示万亿字节,即1TiB=1024TB)。
这些数据需要进行分类、回归、聚类、关联、时间序列分析和异常值/异常检测等,海量处理工作完成后,才有可能揭示隐藏的模式和未知相关性,否则只是无效而浪费的冗余。
另一朵“乌云”是来自维度的困难。当下,科学已进入复杂体系时代,为解决实际问题所构建的一系列方程或公式往往难以应对所涉变量过多、计算复杂度过高等难题,从而引发计算瓶颈,造成“维度灾难”。
随着科学问题中变量的个数或维数的增加,计算复杂度呈指数级增加,传统计算技术更是难以负荷。
甚至有科学家指出,“大部分物理学以及整个化学所需的数学理论的基本定律已完全为人们所知,而困难在于这些定律的精确应用会导致方程太过复杂而无法求解”。
而应对这“两朵乌云”,人工智能的核心——深度学习具有天然优势。
深度学习本身便是为了应对大数据而生,大数据处理不仅是其长项,更是其生存与“进化”的基础。它可在庞大的数据集中发现不寻常,缓解数据爆炸给科学研究所带来的挑战。
同时,以深度学习为代表的人工智能技术,可有效地表示或逼近高维空间所形成的函数,这种解题模式,直接绕开传统分析方法的困境——需通过大算力来破解多维参数间的逻辑关系,直接获知多维参数及数据中所隐藏的模式。
更为值得一提的是,人工智能具有的深度探索优势可以开启远超科学家能力范围的潜在知识域,通过生成模型和判别模型间的互相博弈来产生更优输出,在极短时间内遍历更大的未知空间,为科学的发展带来新的可能。
“黑箱”属性亟待关注
虽然人工智能有着方方面面的“好处”,科学界对其介入依然持谨慎态度,不同的声音从未停止发出。
2021年,74岁的乔治·帕里西凭借发现从原子到行星尺度的物理系统紊乱和波动的相互作用,获得当年的诺贝尔物理学奖。他的研究足够复杂:从基本粒子物理学到机器学习,从自旋玻璃到水的沸腾,从股市到天气,从设计实验探究鸟群飞行规律到如何更高效烹饪意大利面。
当被问及对人工智能的看法时,他提到了这样一个可能:人们所说的大型语言模型能够学习很多文本,像人类一样说话,但目前没有任何内在的方法检查它所做事情的可靠性。目前发生的一切完全是被“虚构”出来的,就像一名高中生在老师提问时不知道答案,却“发明”出了正确答案。比如,我问朋友:如果想写一篇关于意大利诗人的论文,应该读哪些书?他给了我一个书单,但书单里的那些书都不存在。大型语言模型的问题与之类似,在这个模型中,只有对语言的理解,没有任何对现实的理解。
“人工智能系统将把我们从重复性工作中解放出来。比如自动翻译,如果你只是想读懂文章和报纸,或者理解科技论文,可以用翻译软件。然而,如果你想深入理解一篇原创文献,最好还是自己阅读原始论文,而不是去看ChatGPT的总结。就像自动驾驶汽车一样。”帕里西说。
一些已经在研究中深度使用人工智能技术的科学家,也并不讳言目前面临的挑战。
以生物学为例,尽管已有部分细分领域建立起了开放、共享的数据集,但仍有相当多的细分领域非常缺乏可用的高质量数据集。
同时,在生物学研究中采用的数据多涉及个体的基本信息、生物医学特征等敏感信息。例如,人类基因组数据和商业敏感的药物数据均包含个人隐私信息。自欧盟《通用数据保护条例》出台以来,生物医学数据中的隐私保护问题愈加凸显。在数据挖掘和分析过程中的隐私泄露问题将会给生物学发展带来风险和隐患,并对科学研究的社会公信力产生冲击。目前,虽已有一些技术手段可在确保数据安全的前提下开展数据共享和机器学习模型的分布式训练,但从根本上解决这一问题依然任重道远。
此外,科学研究中采用的人工智能算法多为数据驱动的算法,主要采用深度神经网络技术,算法核心部分是通过对数据进行自动学习而自主生成,难以人为干预,具备很强的“黑箱”属性。在大多数情况下,研究中采用的深度学习模型无法解释其生物学意义,模型预测结果很难让传统的实验科学家信服,对研究结果的进一步验证及应用也带来了阻碍。
文/彭德倩
编辑/倪家宁