北京青年报

赏读｜日益重要的数据哲学与数据中心型研究

北京青年报客户端 2024-01-21 10:00

自从我写这本书已经快十年了，我一直在问自己，它的内容现在是不是已经过时了。这一担忧是合理的：数据科学是所有研究领域中发展最快的，更不用说在生物学中，遥感、生物信息学、数据链接策略和人工智能(AI)的创新进一步提高了收集、流通和分析数据的潜力，对我们如何理解生命、健康和环境产生了变革性的影响。当我参观创新总部或出席研究会议时，我经常被告知，与人工智能的发展相比，关于“大数据”的讨论现在已经过时了。事实上，全球每个角落的媒体每周都在记录算法的最新成就。人工智能正在以各种方式改变社会生活，从工作模式到教育策略、研究实践、管理模式和健康监测。

然而，这本书提出的问题——什么应当算作数据?如何管护数据，这对知识生产有什么影响?在哪些情况下可以调动数据并可靠地解释数据?——随着我们对以数据为中心的系统的依赖日益增长，变得越来越重要。数据仍然是训练人工智能系统的重要组成部分，许多专家认识到，人工智能的好坏取决于用于训练它的数据。因此，如何创建、选择、流通和再次使用数据很重要。如果不反思这些过程，就很难评估数据的可靠性和数据模型的表达能力。以数据为中心的人工智能是否产生了值得信赖的结果，例如在识别蛋白质结构或疾病的可能治疗方法时，就更难评估了。与此同时，这些技术在我们日常生活中的无处不在，培养着人们对数据的被动态度——这种被动基于这样一种信念，即对大量数据的分析必然会产生可靠的见解，因此不需要监督。许多研究人员不会问自己数据是什么，为什么我们在开发新知识时如此依赖它们。矛盾的是，以数据为中心的方法越是渗透到所有形式的研究和知识中，我们就越是倾向于信任这些系统，而它们的复杂性和不透明性如今已经超越了人类的理解，因此似乎无可挑剔。然而，并不是所有的数据基础设施和数据处理实践都值得我们信任。现在比以往任何时候都更重要的是，能够对数据系统提出疑问，并理解它们与我们生产的知识和用来干预我们星球的知识之间的关系。数据哲学不仅是一种迷人的爱好，而且是这个依赖大量数据计算系统的时代必不可少的事业。

我非常高兴我的书能够通过翻译接触到更广泛的读者，也非常感谢译者刘冠帅博士的坚持不懈和辛勤工作。我相信，近年来，无论是在生物学研究的背景下，还是在人工智能数据分析驱动的无数其他应用中，本书提出的问题都变得越来越紧迫。我会继续大量参与数据语义学、分类系统、整合和建模策略的研究，并追问这些方法对我们了解世界的影响，以及我们如何根据这些知识采取行动。我希望这本书能激励任何对生命科学感兴趣的人，以及那些努力理解大规模数据收集、数据基础设施和数据分析对其他领域所产生影响的人。