世界是多维的,生活中同样的景物在不同的视角下会呈现出不同的形态。若让人工智能更趋于人类,就要让其视角更接近人的视觉,多角度转换可能会看到一个新的天地。
今年11月,脸谱和世界上9个国家的13所大学和实验室组成学术联盟,将开源让AI拥有以第一人称视角与世界进行交互能力的Ego4D(Egocentric 4D Perception)计划。其中包含超过3025小时的第一人称视频,包括来自73个城市的700多名参与者的日常生活。这将有助于人工智能认知世界的方式更加趋向于人类。
那么,目前人工智能主要通过哪种视角认知世界,第一人称视角认知世界和第三人称有何不同,对AI的认知产生怎样的影响;让AI感知环境、认识世界主要通过什么“抓手”展开;如何才能让AI的认知能力更像人类,还面临哪些瓶颈需要解决?
让AI从“第一人称视角”看世界
“要令人工智能系统如同人类一样与世界交互,人工智能领域需要发展到一种全新的第一人称感知范式。这意味着教导人工智能在实时运动、交互和多传感器背景下,以人眼角度理解日常生活活动。”脸谱首席研究科学家克里斯汀·格劳曼曾言。
随着AR眼镜和VR头显逐渐成为智能手机的普及设备,今天的计算机视觉系统大多是利用数百万张以第三人称视角拍摄的照片和视频进行学习。“为了构建新的感知范式,我们需要教会指导AI像人类一样,从第一人称角度即‘我’视角,沉浸式理解世界,并与之交互,也就是自我中心认知。”10月26日,远望智库人工智能事业部部长、图灵机器人首席战略官谭茗洲在接受科技日报记者采访时指出。
如何理解人工智能的第一人称和第三人称视角?谭茗洲解释道,“第一人称视角代入感很强,比如在玩游戏时,你像身临其境,看到的游戏画面就是你真实世界看到的画面。第三人称视角又叫作上帝视角,仿佛你一直飘在其身边一样如影随形,可以看到角色本身及周围的情况。若眼下找到个掩体,第三人称下藏在掩体后可以很明显看到后面的情况,如果对敌人打击,敌人很难防备。而在第一人称视角下,囿于视角范围,在掩体后只能看到掩体本身。”
“再如自动驾驶,其视觉系统如果只从旁观者(如车的角度)收集数据,与坐在车内方向盘前的视角就很不一样,还包括真人驾驶员相应做出的反应,如点刹、猛刹等行为的收集。即便通过数十万个基于旁观视角看到车辆行进的图像或视频进行训练,AI可能依然不知道如何去做,达不到现在的自动驾驶水平。”谭茗洲进一步说。
“以前很少以第一人称收集数据集,这是弥补了人工智能视角体系的短板。未来对AR、VR的训练非常重要。能够从第一人称角度‘我’来理解世界的人工智能,可以开启沉浸式体验的新时代。”谭茗洲指出。
由此,格劳曼表示“下一代人工智能系统需要从一种完全不同的数据中学习:一种从事件中心视觉而不是边线视觉展示世界的视频”。
建立类人化认知体系的“抓手”
目前让AI感知环境、认识世界,建立类人化的认知体系主要通过什么“抓手”展开?
业内专家指出,历史证明,基准和数据集是人工智能行业创新的关键催化剂。今天,几乎可以识别图像中任何对象的计算机视觉系统都是建立在数据集和基准之上,例如MNIST、COCO和ImageNet。数据集和基准为研究人员提供了一个研究真实世界图像的实验台。
“脸谱日前发布的这个旨在解决自我为中心认知挑战的长期研究项目Ego4D,其实本身就是建立一个数据集,为了训练AI模型更像人类。其开发了五个围绕第一人称视觉体验的基准挑战,即把第一人称拆解成五个目标,开展相应的训练集竞赛。”谭茗洲指出。
Ego4D的五个基准是:情景记忆:什么时候发生?(如“我把钥匙放在哪里了”);预测:我接下来可能会做什么?(如“等等,你已经放盐了”);手-物交互:我在做什么?(如“教我如何打鼓”);视听日记:谁在什么时候说了什么?(如“课堂上的主要话题是什么”);社交互动:谁在和谁互动?(如“帮助我在这家吵闹的餐厅里听清谁在跟我说话”)。
谭茗洲强调,所述基准测试将促进针对开发智能AI助手所必需的构建模块的研究。智能AI助手不仅可以在现实世界中实现理解和交互,同时可以在元宇宙中实现理解和交互。对于元宇宙,物理现实、增强现实和虚拟现实都集中在一个空间里面。
为了建立第一个同类数据集,与脸谱合作的大学团队向研究参与者分发了现成的头戴式摄像头和其他可穿戴传感器,以便捕获第一人称的、未经编辑的日常生活视频。项目的重点是参与者从日常场景中捕获视频,比如购物、烹饪、边玩游戏边聊天,以及与家人和朋友进行其他团体活动。视频采集捕获了摄像头佩戴者在特定环境中选择注视的对象,以及摄像头佩戴者如何从自我中心角度与人和物互动。到目前为止,摄像头佩戴者已经执行数百项活动,并与数百种不同的对象进行交互。所有的数据都是公开的。
“脸谱这项研究通过致力于开放式科学和研究,对人工智能领域能够更快地推动自我中心认知的进步。将对我们未来的生活、工作和娱乐方式产生积极影响。”谭茗洲表示。
突破瓶颈让AI认知能力更像人类
AI发展的终极目标是让人类受益,让我们能够应对现实世界中日益复杂的挑战。想象一下,通过AR设备能够在琴、棋、书、画课堂中准确显示如何弹琴、下棋、握笔和勾勒;指导家庭主妇根据食谱形象生动的指导烘焙烧烤、烹饪菜肴;健忘的老人借以眼前全息图的帮助回忆过去……
如何才能让AI的认知能力更像人类,尚面临哪些瓶颈需要解决?
“首先要提一下注意力,人工智能的注意力机制更接近直觉,而人类的注意力是有选择性的,要从人工智能视角理解人类的注意力。目前来说,大部分注意力机制,是在训练过程中重复告诉AI应该注意哪些地方,哪些东西是有关联的。未来也许可以让参与试验的人戴上特殊的可以捕捉眼球关注点,来进一步收集相关数据。”谭茗洲指出。
“再有,要定义AI的行为,要以事件和行为的关联为研究中心,发生一个事情是由多个动作形成。想用人类反馈的方式训练AI系统,使AI的行为与我们的意图一致。为了达到这个目的,需要解决将智能体对齐的问题。”谭茗洲进一步表示。
谭茗洲强调,“还有,听觉和视觉、语言和行为等之间需配合响应联动,这就要构建多模态交互模型,纵深研究视角为何要聚焦投向,与意图识别相结合,形成与行为之间联动的机制等。”
文/科技日报记者 华凌
编辑/范辉