2026年3月17日,理想汽车基座模型负责人詹锟出席NVIDIA GTC 2026,发表主题演讲《MindVLA-o1:开启全能范式——下一代统一视觉-语言-动作自动驾驶大模型探索》,发布下一代自动驾驶基础模型MindVLA-o1。
詹锟表示:“当我们把视觉、语言和行动统一到一个模型中时,它已不再只是自动驾驶模型,而是在逐渐演化为面向物理世界的通用智能体。基于同一套VLA模型,不仅可以控制车辆,也能够扩展到机器人。因此,自动驾驶只是物理AI的起点,未来这类基础模型将驱动新的具身智能范式。”
据介绍,自2021年启动辅助驾驶自研以来,理想辅助驾驶技术架构经历了多轮关键迭代。2024年是理想辅助驾驶的重要分水岭,随着端到端+VLM(视觉语言模型)双系统架构量产交付,辅助驾驶首次真正具备了跨场景、跨任务的统一理解能力。2025年,理想汽车进一步将空间理解、语言理解与行动决策统一到同一模型框架,构建了基于VLA、世界模型与强化学习三大技术栈的VLA司机大模型,并于8月随理想i8交付正式推送,9月向AD Max用户全量推送。
截至2025年底,VLA司机大模型月使用率达到80%,VLA指令累计使用1225.4万次;春节期间理想辅助驾驶总里程达2.5亿公里,VLA指令使用次数达130.3万次。规模化的用户验证与持续积累的真实场景数据,为理想汽车推进下一代自动驾驶技术演进提供了坚实基础。
理想汽车提出下一代统一架构——MindVLA-o1。该架构以原生多模态MoE Transformer为核心,通过五大技术创新——3D空间理解、多模态思考、统一行为生成、闭环强化学习和软硬件协同设计,构建了面向物理世界智能的自动驾驶基础模型。
MindVLA-o1是理想汽车面向物理世界智能核心AI框架的重要组成部分。该框架不仅服务于汽车,也可扩展至机器人及各种物理系统。对理想汽车而言,车是最大号的机器人,其本质是在构建硅基生命体的躯干与大脑。
文/北京青年报记者 宋霞
摄影/北京青年报记者 宋霞
编辑/李涛
