6月6日,第七届“北京智源大会”在中关村展示中心开幕。大会汇聚了100余位全球青年科学家、200余位人工智能顶尖学者和产业专家,围绕多模态、深度推理、下一代AI路径、Agent智能体、具身智能、AI4S、AI产业、AI安全、AI开源展开精彩演讲和前瞻性对话。会上,智源研究院推出“悟界”系列大模型,既有支持多模态输入、多模态输出的原生模型,也有为“脑机接口”提供支持的脑科学多模态通用基础模型,还有为机器人开发的跨本体具身大小脑协作框架和具身大脑开源框架。目前,多个模型已经走出实验室,未来有望在医学、工业等领域开展实际应用。
拓展AI与物理交互边界
2025北京智源大会邀请到了图灵奖得主、深度学习代表人物Yoshua Bengio,图灵奖得主、强化学习之父Richard S.Sutton,图灵奖得主Joseph Sifakis、姚期智,Google、DeepMind、MIT、斯坦福、Linux基金会等国际明星机构与技术团队代表,华为、百度、字节跳动、腾讯、阿里等互联网大厂以及智谱、宇树科技、生数科技、面壁等30余位AI公司创始人、CEO。
在2025北京智源大会上,继“悟道”系列大模型之后,智源研究院推出“悟界”系列大模型,拓展AI与物理交互边界。
“悟界”大模型系列,包括原生多模态世界模型Emu3、脑科学多模态通用基础模型见微Brainμ、跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0以及全原子微观生命模型OpenComplex2。
Emu3作为原生多模态统一架构让大模型具备理解和推理世界的能力,Brainμ基于Emu3架构,引入脑信号这一新的模态数据,实现了单一模型完成多种神经科学任务的大一统。多模态与脑科学模型未来可成为人机交互具身场景下的基础模型。RoboOS 2.0与RoboBrain 2.0在初代版本基础上,原有性能大幅提升,并新增多机协作规划与物理常识驱动的空间推理能力。OpenComplex2可在原子分辨率层面捕捉分子相互作用及平衡构象,探索微观构象波动与宏观生物功能的跨尺度关联。
其中,脑科学多模态通用基础模型见微Brainμ基于Emu3的底层架构,将fMRI、EEG、双光子等神经科学与脑医学相关的脑信号统一token化,利用预训练模型多模态对齐的优势,可以实现多模态脑信号与文本、图像等模态的多向映射,可同步处理多类编解码任务,兼容多物种动物模型(包括小鼠 狨猴 猕猴)与人类数据,实现科学数据注释、交互式科学结论解读、大脑感觉信号重建及模拟刺激信号生成。在自动化睡眠分型、感官信号重建与多种脑疾病诊断等任务中,作为单一模型其性能显著超越现有的专有模型,刷新该领域内的最先进表现。
Brainμ也可以支持拓展脑机接口应用,在与脑机接口企业强脑科技BrainCO的合作中,Brainμ实现了首次在便携式消费级脑电系统上重建感觉信号,展现了模型支持拓展脑机接口应用能力的潜力。智源正在与国内前沿的基础神经科学实验室、脑疾病研究团队和脑机接口团队深入合作,包括北京生命科学研究所、清华大学、北京大学、复旦大学与强脑科技BrainCO,拓展Brainμ的科学与工业应用。
跨本体具身大小脑协作框架RoboOS 2.0是全球首个基于具身智能SaaS平台、支持无服务器一站式轻量化机器人本体部署的开源框架。同时,RoboOS 2.0也是全球首个支持MCP的跨本体具身大小脑协作框架,旨在构建具身智能领域的“应用商店”生态。在功能层面,新增了多本体时空记忆场景图(Scene Graph)共享机制,支持动态环境下的实时感知与建模;同时引入多粒度任务监控模块,实现任务闭环反馈,有效提升机器人任务执行的稳定性与成功率。
持续打造大模型开源技术体系
智源作为非营利科研机构,一直坚持开源开放的原则,智源打造的覆盖模型、算法、数据、评测、系统的大模型开源技术体系FlagOpen,截至目前,已开源约200个模型和160个数据集,其中,模型全球总下载量超6.4亿次,开源数据集下载量近113万次,开源项目代码下载量超140万次,为人工智能技术普惠与开源社区繁荣做出持续贡献。
其中,开源、统一的AI 系统软件栈FlagOS进一步升级,新增统一编译器FlagTree、统一通信库FlagCX、自动发版平台工具FlagRelease等重要板块,全面覆盖统一生态技术需求;实现对11家国内外厂商的18款异构AI硬件的统一支持;FlagGems的算子平均性能已优于国际主流算子,并行训推框架FlagScale与人工优化相比,实现了最高23%的自动并行加速。
升级后的FlagOS已支持DeepSeek、通义千问等更多开源大模型实现跨硬件平台运行,为开发者提供更多选择,推动AI 技术的普及和多元发展。
在开源模型方面,通用向量模型BGE系列已发展为门类齐全、体系完备的生态系统。近期集中发布了BGE-code-v1、BGE-VL-v1.5和BGE-VL-screenshot三款模型,分别在代码检索、多模态检索以及富文本多模态检索任务中取得了领先表现。目前,BGE模型已广泛应用于人工智能产业,被百度、腾讯、华为、阿里巴巴、微软、亚马逊等知名企业商业化集成。2024年10月,BGE成为中国首个登顶Hugging Face月度下载排行榜榜首的开源模型。截至2024年12月,BGE模型是2023年所有发布模型的全球下载量冠军。
小时级开源轻量长视频理解模型Video-XL-1,于2024年10月发布,首次实现了单GPU处理2048帧视频的能力。不仅进一步提升了轻量开源模型对长视频理解的最佳效果,同时实现了单GPU处理万帧视频的能力,并且在推理效率上大幅领先同类别竞品模型,编码2048 帧视频仅需12 秒,显著加速长视频理解流程。目前,Video-XL-2的模型权重已全面向社区开放。未来,该模型有望在影视内容分析、异常行为监测等多个实际场景中展现重要应用价值。
国际巨头尖峰对话
2025北京智源大会开幕式上,图灵奖得主Yoshua Bengio、Richard Sutton,Linux基金会执行董事Jim Zemlin,Physical Intelligence联合创始人兼CEO Karol Hausman分别做主题报告。
Yoshua Bengio表示,当前AI 在规划、推理等领域呈指数级进步,部分前沿模型已显现自我保护、欺骗性对齐、篡改系统等类生物主体行为,若形成“智能 + 自主目标 + 行动能力”组合将引发失控风险,甚至可能威胁人类生存。他强调,尽管AI 造成伤害需同时具备能力与意图,但前者已可预见,必须以预防原则优先解决意图对齐问题。为此,他提出双重解决方案:一是研发以无私科学家为原型的非代理性、可信赖人工智能系统,专注于理解世界而非自主行动;二是推动全球协同治理,建立国际监管框架与技术验证机制,遏制各国因竞争导致的安全标准缺位,避免将AGI 设计为人类竞争者,呼吁在AGI 可能于5 年内达到人类水平的紧迫时间窗口内,通过技术创新与全球协作筑牢安全防线。
Richard Sutton表示,AI正从依赖人类静态数据的“人类数据时代”迈入通过互动与经验学习的“体验时代”,强调智能体需像人类和动物一样从动态交互中生成新知识,强化学习是实现这一目标的核心路径,而大语言模型时代已接近尾声,通用人工智能需要更强大的持续学习算法。他认为,智能体天然具有多元目标,如同自然界生物,关键在于通过分散合作而非集中控制实现安全协同—— 人类社会的进步源于分权化合作,集中控制AI 的呼吁本质是源于恐惧的“危险策略”,可能引发类似人类冲突的问题。Sutton倡导以去中心化合作替代中心化控制,通过信任、协调和市场机制引导AI 与人类共生,抵制因恐惧而催生的限制措施,认为这一路径更可持续,且能避免战争、腐败等风险,最终实现AI 与人类社会的互利共赢。
Linux基金会执行董事Jim Zemlin在演讲中谈到,2025年是开源AI 元年,开源正成为全球AI 创新核心驱动力。中国企业,如DeepSeek发布开源大模型,引发技术生态变革,印证开源打破垄断、加速迭代的作用。哈佛商学院数据显示,全球开源软件经济价值达9 万亿美元,可帮助开发者节约70%开发成本。开源治理是平衡竞争与协同的核心机制。开源不仅是代码共享,更需全球协作。他强调,开源是技术普惠的唯一路径,通过全球协作确保AI 创新由全人类共享。
智源研究院副院长兼总工程师林咏华主持Fireside Chat,Linux基金会执行董事Jim Zemlin与LAION工程负责人兼创始人Richard Vencu就全球AI开源与合作展开深度对话,嘉宾普遍认为,开源是AI 发展的核心,数据集共享是关键基础,全球合作至关重要,应当鼓励开发者从提交代码等小事参与开源,共同推动AI 创新。
机器人现场展示互动
在智源具身智能会客厅中,银河通用的具身大模型机器人Galbot登台展示了端到端VLA大模型在商业零售场景的落地应用,《CMG世界机器人大赛·系列赛》机甲格斗擂台赛“AI策算师”冠军机器人宇树G1登台展示了敏捷帅气的“组合拳”,全球首个人形机器人半程马拉松冠军天工2.0也参与了现场互动,完成“水果摆盘”的精细化服务任务,获得满堂喝彩。
在具身智能展区,基于RoboOS 2.0以及RoboBrain 2.0的不同构型的机器人(单臂、轮式双臂、人形)带来了丰富的技能展示,包括餐饮互动,机器人接受到语音指令后,完成汉堡制作和倒饮料的动作,以及抓娃娃的游戏和家居物品收纳。此外,基于智源自主研发的多模态具身大模型的机器人,融合了视觉、听觉、思考、语音交互等能力,带来了“心有灵犀”的互动小游戏,机器人可对看见的物品进行详细描述,互动者依据信息线索猜出对应的物品名称。
在数字心脏展区,可通过裸眼3D透明心脏以及VR互动沉浸体验基于医学影像重建的心脏三维结构,通过操控笔可精准完成心脏模型的旋转、拉伸与层析切片操作。未来,将实现对心脏电生理过程的动态仿真交互,为精准医疗与个性化干预提供技术支撑。在裸眼3D提供宏观交互的同时,也进一步构建了基于虚拟现实的沉浸式系统,实现对心脏内部结构的深度探索与术式模拟。佩戴VR头显,可沉浸式进入心脏内部,进行类内窥镜式的结构观察。通过手柄精准定位,用户可选定刺激区域,模拟电生理手术中的干预操作。该系统为心脏术前智能规划提供了高度可视化与交互性的研究平台,为数字孪生心脏在临床应用中的落地奠定了坚实基础。
现场一块基于心冲击信号研发的无感智能坐垫系统,可对多项生理指标进行高精度实时监测与智能分析。观众落座后,系统通过内嵌的高灵敏度传感模块,精准捕捉由心脏搏动引发的微弱体动信号,并同步完成心动周期识别。在完成有效数据采集后,系统调用信号分析算法,进入健康状态评估阶段,计算心率、心率变异性、呼吸频率等指标。根据这些指标,可对疲劳程度、精神压力、情绪状态进行量化评估,并辅助识别房颤等心律异常状态,在个人健康管理、智能家居与智能医疗决策中具有广泛的应用前景。
文/北京青年报记者 温婧
编辑/李涛