当地时间11月4日,谷歌DeepMind联合创始人谢恩·莱格(Shane Legg)带领的DeepMind研究团队发布论文(Levels of AGI: Operationalizing Progress on the Path to AGI),提出了对通用人工智能(AGI)的更清晰定义,制定了类似于自动驾驶L1-L5级别的AGI分级分类框架。
长期以来,AGI都是一个含义模糊的概念,粗略可以将其理解为“和人类差不多聪明”。研究团队在论文中写道,“我们希望提供一个共通的语言,用于比较模型、评估风险,以及衡量我们在通往AGI的道路上行进到了什么阶段。”
AGI六大定义原则
研究团队没有用一句话概括AGI,而是提出,任何对AGI的定义都应满足六条原则:
关注能力,而非过程。也就是说关注AGI可以完成什么,而不是完成任务的机制。这种将关注焦点放在能力上的方式,使我们能够将一些内容排除在对AGI的要求之外,比如实现AGI并不意味着智能体以类似人类的方式思考或理解,或实现AGI并不意味着智能体具备意识或感知(具有情感的能力),因为这些特质不仅侧重于过程,而且目前无法通过公认的科学方法来衡量。
关注通用性和性能。研究团队认为,通用性和性能是AGI的关键组成部分。
关注认知和元认知任务。大多数对AGI的定义侧重于认知任务,可以理解为非物理任务。尽管目前机器人技术取得了一些进展,但与非物理能力相比,AI系统的物理能力似乎滞后了。执行物理任务的能力确实增加了智能体的通用性,但我们认为这不应被视为实现AGI必要的先决条件。另一方面,元认知能力(例如学习新任务的能力或知道何时向人类请求澄清或协助的能力)是智能体实现通用性的关键先决条件。
关注潜力,而非部署。证明系统能够以一定性能水平执行一组必要任务,应该足以宣布该系统为AGI,在现实世界部署这样的系统,不应该成为AGI定义的固有要求。
关注生态效度(Ecological Validity)。我们希望强调,选择与人们在现实世界(即生态有效)所重视的任务相一致的任务非常重要。
关注通往AGI的路径,而不是单一的终点。研究团队提出AGI的五级分类,每个AGI级别都与一组明确的度量/基准相关联,以及每个级别都引入已识别的风险和人机交互范式的变化,比如OpenAI提出的劳动替代定义就更符合“大师AGI”。
AGI五级分类
基于能力深度(性能)和广度(通用性),该研究将AGI分类为:非AI、初级、中级、专家、大师、超级智能。单个系统可能横跨分类法中的不同级别,截至2023年9月,前沿语言模型如OpenAI的ChatGPT、谷歌的Bard、Meta的Llama 2在某些任务上(如短篇论文写作、简单编码)表现出能力娴熟的“中级”性能水平,但在大多数任务上(如数学能力、涉及事实性的任务)仍处于“初级”性能水平。
研究团队认为,总的来说,当前的前沿语言模型会被视为第1级通用AI,即“初级AGI”,直到其性能水平在更广泛的任务集上提高,满足第2级通用AI(“能力娴熟AGI”)的标准。
同时,研究团队提醒道,获得特定认知领域的更强技能,可能对AI安全产生严重影响,如在掌握强大的伦理推理技能之前获得强大的化学工程知识可能是一种危险的组合。还要注意,性能或通用性级别之间的进展速度可能是非线性的。获得学习新技能的能力可能会加速通往下一个级别的进程。
在性能和通用性的综合方面,分级中的最高级别是ASI(人工超级智能)。研究团队将“超级智能”性能定义为超过100%的人类。例如,研究团队假定AlphaFold是分类法中的第5级“限定领域超人AI”,因为它在一个任务(从氨基酸序列预测蛋白质的三维结构)上的表现高于全球顶级科学家的水平。这个定义意味着第5级通用AI(ASI)系统将能够以没有人类能够匹敌的水平执行各种任务。
此外,这个框架还意味着这样的“超人系统”可能能够执行比AGI低级别更广泛的任务,可以理解为其能够实现原本人类完全不可能执行的任务。ASI可能具有的非人类技能可能包括神经界面(通过分析大脑信号来解码思想的机制)、神谕能力(通过分析大量数据来做出高质量预测的机制),以及与动物交流的能力(通过分析它们的声音、脑电波或肢体语言的模式等机制)。
10月底,莱格在接受科技播客采访时表示,他仍然坚持2011年就曾公开发表的观点——研究人员有50%的可能在2028年实现AGI。那么这具体指的是哪一个级别?目前他还没有明确的阐释。
编辑/范辉