2月9日,针对近期日益火爆的 ChatGPT,旷视研究院基础科研负责人张祥雨接受了北京青年报记者的采访。
他告诉北青报记者,人工智能作为新一轮科技革命和产业变革的核心力量,从底层推动着社会生产力的提升。人工智能会在未来几年更快速地发展和应用,从两个方向改变我们的世界。一是“AI in Digital”,即以 AIGC 为代表的技术浪潮,通过重构内容生产力,让数字世界发生变革。二是“AI in Physical”,即以特斯拉为代表的企业,通过构建不同形态的机器人载体,对物理世界进行改造。 ChatGPT 在底层数据、核心技术、用户体验等各方面都可以说是里程碑式的 AI 产品。
他向北青报记者解释道,如果我们从智能的角度看,AI 要能完整模拟人脑,大概是“感知-决策-执行-反馈 + 知识/记忆”这几个模块。ChatGPT 的核心技术是 AI 语言大模型,关键是如何让 AI 模型具备逻辑推理能力,以及如何让 AI 学习全互联网的知识。ChatGPT 基本都做到了, 因此在决策和知识这个环节有了很大的突破。但是它基本上是没有跟物理世界发生关系,包括输入和输出。我们会发现,人类在物理世界的生存能力和基础运动能力,看似简单,其实经过漫长的进化,底层机制是更难被破解的。某种意义上来说,是一种更难学习的智能。 “AI in Digital”和“AI in Physical”是两条不同的技术路线,相辅相成,对我们的未来会产生根本性的影响。“AI in Digital”背后的生成式大模型也为“AI in Physical”的发展带来了新的机遇。旷视的技术愿景是“AI in Physical“,通过构建底层统一的感知 -决策-执行技术体系,做真正影响物理世界的 AI 技术创新。
张祥雨在谈到旷视的技术布局时表示, 在能力上,ChatGPT 背后的关键技术底座是生成式大模型,而模型设计能力是旷视研究院多年以来积累的核心能力。旷视围绕“感知算法+算法量产”,不仅在算法模型上有深厚积累,而且将算法生产的全过程实现标准化,从而形成了自己独特的技术优势。
张祥雨认为,生成式大模型有望突破图像大模型的上限,并推动底层架构的统一。旷视研究院会坚定投入生成式大模型的研发。 在应用上,一方面,旷视会把顶尖的底层模型设计和工程能力开放出来,跟有场景需求和内容生成能力的合作伙伴一起,开发出有价值的 AIGC 应用。另一方面,因为旷视的选择是专注在“AI in Physical”,所以公司会把这些底层技术研究更多应用在自动驾驶、机器人这样的复杂决策领域。
文/北京青年报记者 刘慎良
编辑/樊宏伟