北京青年报

瞄准ChatGPT 背后关键技术旷视投入生成式大模型研发

北京青年报客户端 2023-02-09 16:28

2月9日，针对近期日益火爆的 ChatGPT，旷视研究院基础科研负责人张祥雨接受了北京青年报记者的采访。

他告诉北青报记者，人工智能作为新一轮科技革命和产业变革的核心力量，从底层推动着社会生产力的提升。人工智能会在未来几年更快速地发展和应用，从两个方向改变我们的世界。一是“AI in Digital”，即以 AIGC 为代表的技术浪潮，通过重构内容生产力，让数字世界发生变革。二是“AI in Physical”，即以特斯拉为代表的企业，通过构建不同形态的机器人载体，对物理世界进行改造。 ChatGPT 在底层数据、核心技术、用户体验等各方面都可以说是里程碑式的 AI 产品。

他向北青报记者解释道，如果我们从智能的角度看，AI 要能完整模拟人脑，大概是“感知-决策-执行-反馈 + 知识/记忆”这几个模块。ChatGPT 的核心技术是 AI 语言大模型，关键是如何让 AI 模型具备逻辑推理能力，以及如何让 AI 学习全互联网的知识。ChatGPT 基本都做到了，因此在决策和知识这个环节有了很大的突破。但是它基本上是没有跟物理世界发生关系，包括输入和输出。我们会发现，人类在物理世界的生存能力和基础运动能力，看似简单，其实经过漫长的进化，底层机制是更难被破解的。某种意义上来说，是一种更难学习的智能。 “AI in Digital”和“AI in Physical”是两条不同的技术路线，相辅相成，对我们的未来会产生根本性的影响。“AI in Digital”背后的生成式大模型也为“AI in Physical”的发展带来了新的机遇。旷视的技术愿景是“AI in Physical“，通过构建底层统一的感知 -决策-执行技术体系，做真正影响物理世界的 AI 技术创新。

张祥雨在谈到旷视的技术布局时表示，在能力上，ChatGPT 背后的关键技术底座是生成式大模型，而模型设计能力是旷视研究院多年以来积累的核心能力。旷视围绕“感知算法+算法量产”，不仅在算法模型上有深厚积累，而且将算法生产的全过程实现标准化，从而形成了自己独特的技术优势。

张祥雨认为，生成式大模型有望突破图像大模型的上限，并推动底层架构的统一。旷视研究院会坚定投入生成式大模型的研发。在应用上，一方面，旷视会把顶尖的底层模型设计和工程能力开放出来，跟有场景需求和内容生成能力的合作伙伴一起，开发出有价值的 AIGC 应用。另一方面，因为旷视的选择是专注在“AI in Physical”，所以公司会把这些底层技术研究更多应用在自动驾驶、机器人这样的复杂决策领域。

文/北京青年报记者刘慎良
编辑/樊宏伟