网易有道CEO周枫:大语言模型三项根本性新能力最为关键
北京青年报客户端 2023-04-23 17:26

基于大语言模型技术的ChatGPT推出已有4个月,更多同类产品也在快速出现。网易有道CEO周枫日前表示,在大语言模型带来的新能力中,涌现能力、作为基座模型支持多元应用的能力和支持对话作为统一入口的能力最为关键,可能给业界和产品带来长期影响,值得重点关注。

周枫认为,涌现能力指的是在小型模型中并不存在,但在大模型中“突然出现”的能力,其中包括常识推理、问答、翻译、数学、摘要等。如果仅依靠小型模型的能力做线性外推,往往无法预测出涌现能力的出现和其强度。OpenAI的首席技术官Ilya Sutskever在接受采访时反复强调,尽管表面上看来,语言模型只是在预测下一个词元(token),但当模型足够大,transformer技术的建模能力足够强时,基于内部表示的推理能力就会出现。因此,模型会呈现出与规模较小时完全不同的行为,涌现全新的能力。

“涌现能力之所以重要,不仅因为它们是大模型出现后才有的新能力,而且由大模型涌现出来的多数是非常重要的能力。”周枫说,例如,常识推理能力一直是AI领域的重大难题,而大模型的出现使得常识推理取得了重大进展。此外,大模型还有机会进一步获得更多能力。例如,一旦“推理”能力涌现,“思维链提示”策略就可以用来解决多步推理的难题。因此,涌现能力的出现,是大模型带来的一项根本性变化。

作为基座模型支持多元应用的能力也是大语言模型带来的一项新能力。周枫表示,这是一种全新的AI技术范式,借助于海量无标注数据的训练,获得可以适用于大量下游任务的大模型(单模态或者多模态)。这样,多个应用可以只依赖于一个或少数几个大模型进行统一建设。

大语言模型是这个新模式的典型例子,使用统一的大模型可以极大地提高研发效率,相比于分散的模型开发方式,这是一项本质上的进步。大型模型不仅可以缩短每个具体应用的开发周期,减少所需人力投入,也可以基于大模型的推理、常识和写作能力,获得更好的应用效果。因此,大模型可以成为AI应用开发的大一统基座模型,这是一个一举多得、全新的范式,值得大力推广。

谈到支持对话作为统一入口的能力,周枫指出,让大语言模型真正火爆的契机,是基于对话聊天的ChatGPT。事实上,业界很早就发现了用户对于对话交互的特殊偏好,陆奇在微软期间2016年就推进“对话即平台”的战略。此外,苹果Siri、亚马逊Echo等基于语音对话的产品也非常受欢迎,反映出互联网用户对于聊天和对话这种交互模式的偏好。虽然之前的聊天机器人存在各种问题,但大型语言模型的出现再次让聊天机器人这种交互模式可以重新想像。用户愈发期待像钢铁侠中“贾维斯”一样的人工智能,无所不能、无所不知。这引发我们对于智能体(Agent)类型应用前景的思考,Auto-GPT、微软Jarvis等项目已经出现并受到关注,相信未来会涌现出很多类似的以对话形态让助手完成各种具体工作的项目。

“随着大型语言模型技术越来越受欢迎,我们可以期待它带来更多的惊喜,特别是考虑到上面讨论的这些大型模型带来的关键新能力,周明等人所预测的语言智能黄金十年(2020-2030)很可能会成为现实,这正是一个令人兴奋的时代。”周枫说。

文/北京青年报记者 王斌
编辑/彭小菲

相关阅读
智源发布“百模”评测结果:更聚焦综合能力提升与实际应用
北京青年报客户端 2024-12-20
从“造锤子”到“找钉子”,大模型这一年走慢了吗?
第一财经 2024-12-11
中国移动发布九天善智多模态基座大模型及30款自研行业大模型
北京青年报客户端 2024-10-13
药食同源理念创新实践:国药大健康携手官栈共创中式滋补新品
北京青年报客户端 2024-08-26
GPT-4o模仿人声说“不” 无意的语音生成仍是模型弱点
澎湃新闻 2024-08-13
我国首个农业通用大语言模型发布
光明日报 2024-08-02
价格战凶猛 AI小模型狂飙
21世纪经济报道 2024-07-30
AI+游戏:大模型让角色有了记忆和情绪
澎湃新闻 2024-07-22
最新评论