来自北京研发机构!我国大模型成果首登《自然》正刊
北京青年报客户端 2026-01-29 16:42

1月28日,北京智源人工智能研究院的多模态大模型成果“通过预测下一个词元进行多模态学习的多模态大模型”上线国际顶级学术期刊《自然》,预计2月12日纸质版正式刊发,这是我国科研机构主导的大模型成果首次在《自然》正刊发表。

2018年以来,GPT采用“预测下一个词元(NTP)”的自回归路线,实现了语言大模型重大突破,开启了生成式人工智能浪潮。而多模态模型主要依赖对比学习、扩散模型等专门路线,自回归路线是否可以作为通用路线统一多模态?一直是未解之谜。

智源研究院提出的Emu3模型,基于“预测下一个词元”的全新多模态模型,将图像、文本和视频统一离散化到同一个表示空间中,并从零开始,在多模态序列混合数据上联合训练一个单一的Transformer。这一架构证明了仅凭“预测下一个词元”,就能够同时支持高水平的生成能力与理解能力,并且在同一统一架构下,自然地扩展到机器人操作以及多模态交错等生成任务。

实验显示,Emu3在生成与感知任务上的整体表现可与多种成熟的任务专用模型相媲美:在文生图任务中,其效果达到扩散模型水平;在视觉语言理解方面,可以与融合CLIP和大语言模型的主流方案比肩。此外,Emu3还具备视频生成能力。不同于以噪声为起点的扩散式视频生成模型,Emu3通过自回归方式逐词元(token)预测视频序列,实现基于因果的视频生成与延展,展现出对物理世界中环境、人类与动物行为的初步模拟能力。

这项成果表明,只采用自回归路线,就可以统一多模态学习,训练出优秀的原生多模态大模型,对于确立自回归成为生成式人工智能统一路线具有重大意义。值得一提的是,智源研究团队对相关研究的多项关键技术与模型进行了开源,以推动该方向的持续研究。

《自然》编辑点评这项研究:Emu3仅基于预测下一个词元,实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的性能可与使用专门路线相当,这一成果对构建可扩展、统一的多模态智能系统具有重要意义。

作为北京的一所新型研发机构,智源研究院成立七年来,始终聚焦人工智能技术前沿,挑战最基础的问题和最关键的难题,推进大模型技术不断演进。

文/北京青年报记者 雷嘉
编辑/胡克青

相关阅读
AICC 2025召开 百度CTO王海峰解读大模型技术与产业应用
北京青年报客户端 2025-09-26
我国自主研发“磐石·科学基础大模型”发布
央视新闻 2025-07-26
2025北京智源大会开幕 智源发布“悟界”系列大模型
北京青年报客户端 2025-06-06
大模型“六小虎”变阵
上海证券报 2025-04-19
全力打造人工智能新质生产力发展的北京样板 北京加速迈向AI原生城市|关注2025中关村论坛
北京青年报客户端 2025-03-31
人工智能群星闪耀时——探访北京“人工智能第一城”
新华每日电讯 2025-03-24
科学大模型:“上线”之路还有多远
科技日报 2025-01-09
智源研究院发布2025十大AI技术趋势:具身智能、Super APP、AI安全成焦点
北京青年报客户端 2025-01-08
最新评论