北京青年报

智源推出大模型全家桶及全栈开源技术基座新版图

北京青年报客户端 2024-06-14 16:54

6月14日，第六届“北京智源大会”在中关村展示中心开幕。大会邀请到了图灵奖得主姚期智，OpenAI、Meta、DeepMind、斯坦福、UC Berkeley等国际明星机构与技术团队代表，以及百度、零一万物、百川智能、智谱AI、面壁智能等国内主流大模型公司CEO与CTO，汇聚了200余位人工智能顶尖学者和产业专家。

智源研究院院长王仲远表示，现阶段语言大模型的发展已经具备了通用人工智能非常核心的理解和推理能力，并且形成了一条以语言大模型为核心对齐和映射其他模态的技术路线，从而让模型具备了初步的多模态理解和生成能力。但这并不是让人工智能感知、理解物理世界的终极技术路线，而是应该采取统一模型的范式，实现多模态的输入和输出，让模型具备原生的多模态扩展能力，向世界模型演进。未来，大模型将以数字智能体的形态与智能硬件融合，以具身智能的形态从数字世界进入物理世界，同时，大模型这一技术手段可为科学研究提供新的知识表达范式，加速人类对微观物理世界规律的探索与研究突破，不断趋近通用人工智能的终极目标。

在语言大模型方面，针对大模型训练算力消耗高的问题，智源研究院和中国电信人工智能研究院（TeleAI）基于模型生长和损失预测等关键技术，联合研发并推出全球首个低碳单体稠密万亿语言模型 Tele-FLM-1T。该模型与百亿级的52B版本，千亿级的102B版本共同构成Tele-FLM系列模型。

在多模态大模型方面，行业现有的多模态大模型多为对于不同任务而训练的专用模型，例如Stable Diffusion之于文生图，Sora之于文生视频，GPT-4V之于图生文。每类模型都有对应的架构和方法，例如对于视频生成，行业普遍参照Sora选择了DiT架构。但是现有模型的能力多为单一分散的能力组合，而不是原生的统一能力，例如目前Sora还做不到图像和视频的理解。

为了实现多模态、统一、端到端的下一代大模型，智源研究院推出了Emu3原生多模态世界模型。Emu3采用智源自研的多模态自回归技术路径，在图像、视频、文字上联合训练，使模型具备原生多模态能力，实现了图像、视频、文字的统一输入和输出。Emu3从模型训练开始就是为统一的多模态生成和理解而设计的，目前具备生成高质量图片和视频、续写视频、理解物理世界等多模态能力。简单来说，Emu3既统一了视频、图像、文字，也统一了生成和理解。值得注意的是，Emu3在持续训练中，经过安全评估之后将逐步开源。

在具身大模型方面，智源研究院具身智能创新中心在机器人泛化动作执行和智能大小脑决策控制等方面取得了多项世界级突破性成果。比如在分级具身大模型系统方面，智源还研发了全球首个能做到开放指令控制六自由度物体拿取放置的大模型系统Open6DOR。该系统不仅像谷歌RT系列大模型一样按照自然语言指令中的要求将物体放到指定位置，还能够进一步对物体的姿态进行精细化控制。该项技术极大地提高了具身操作大模型的商业应用范围和价值。

在生物计算大模型方面，智源研究院构建了全球首个实时孪生心脏计算模型，可实现高精度的前提下生物时间/仿真时间比小于1，位于国际领先水平。目前，智源与北医一院共同成立了“北京大学第一医院-北京智源人工智能研究院心脏AI 联合研究中心”，正在开展基于超声影像的急性心肌梗死诊断、心衰的病理仿真、肾动脉造影等课题，与安贞医院合作进行室速疾病的无创心外膜标测技术的前沿研究，与斯高电生理研究院开展药物筛选平台的开发与应用以及与清华长庚医院和朝阳医院合作开展肥厚性心肌病课题。

据介绍，智源研究院作为创新性研究机构，引领人工智能前沿技术的发展，也发挥第三方中立、非营利机构的优势，搭建公共技术基座，解决当前产业的痛点。

文/北京青年报记者温婧
编辑/田野