北京青年报

来自北京研发机构！我国大模型成果首登《自然》正刊

北京青年报客户端 2026-01-29 16:42

1月28日，北京智源人工智能研究院的多模态大模型成果“通过预测下一个词元进行多模态学习的多模态大模型”上线国际顶级学术期刊《自然》，预计2月12日纸质版正式刊发，这是我国科研机构主导的大模型成果首次在《自然》正刊发表。

2018年以来，GPT采用“预测下一个词元（NTP）”的自回归路线，实现了语言大模型重大突破，开启了生成式人工智能浪潮。而多模态模型主要依赖对比学习、扩散模型等专门路线，自回归路线是否可以作为通用路线统一多模态？一直是未解之谜。

智源研究院提出的Emu3模型，基于“预测下一个词元”的全新多模态模型，将图像、文本和视频统一离散化到同一个表示空间中，并从零开始，在多模态序列混合数据上联合训练一个单一的Transformer。这一架构证明了仅凭“预测下一个词元”，就能够同时支持高水平的生成能力与理解能力，并且在同一统一架构下，自然地扩展到机器人操作以及多模态交错等生成任务。

实验显示，Emu3在生成与感知任务上的整体表现可与多种成熟的任务专用模型相媲美：在文生图任务中，其效果达到扩散模型水平；在视觉语言理解方面，可以与融合CLIP和大语言模型的主流方案比肩。此外，Emu3还具备视频生成能力。不同于以噪声为起点的扩散式视频生成模型，Emu3通过自回归方式逐词元（token）预测视频序列，实现基于因果的视频生成与延展，展现出对物理世界中环境、人类与动物行为的初步模拟能力。

这项成果表明，只采用自回归路线，就可以统一多模态学习，训练出优秀的原生多模态大模型，对于确立自回归成为生成式人工智能统一路线具有重大意义。值得一提的是，智源研究团队对相关研究的多项关键技术与模型进行了开源，以推动该方向的持续研究。

《自然》编辑点评这项研究：Emu3仅基于预测下一个词元，实现了大规模文本、图像和视频的统一学习，其在生成与感知任务上的性能可与使用专门路线相当，这一成果对构建可扩展、统一的多模态智能系统具有重要意义。

作为北京的一所新型研发机构，智源研究院成立七年来，始终聚焦人工智能技术前沿，挑战最基础的问题和最关键的难题，推进大模型技术不断演进。

文/北京青年报记者雷嘉
编辑/胡克青