北京青年报

理想汽车发布下一代自动驾驶基础模型｜新品速递

北京青年报客户端 2026-03-18 08:52

2026年3月17日，理想汽车基座模型负责人詹锟出席NVIDIA GTC 2026，发表主题演讲《MindVLA-o1：开启全能范式——下一代统一视觉-语言-动作自动驾驶大模型探索》，发布下一代自动驾驶基础模型MindVLA-o1。

詹锟表示：“当我们把视觉、语言和行动统一到一个模型中时，它已不再只是自动驾驶模型，而是在逐渐演化为面向物理世界的通用智能体。基于同一套VLA模型，不仅可以控制车辆，也能够扩展到机器人。因此，自动驾驶只是物理AI的起点，未来这类基础模型将驱动新的具身智能范式。”

据介绍，自2021年启动辅助驾驶自研以来，理想辅助驾驶技术架构经历了多轮关键迭代。2024年是理想辅助驾驶的重要分水岭，随着端到端+VLM（视觉语言模型）双系统架构量产交付，辅助驾驶首次真正具备了跨场景、跨任务的统一理解能力。2025年，理想汽车进一步将空间理解、语言理解与行动决策统一到同一模型框架，构建了基于VLA、世界模型与强化学习三大技术栈的VLA司机大模型，并于8月随理想i8交付正式推送，9月向AD Max用户全量推送。

截至2025年底，VLA司机大模型月使用率达到80%，VLA指令累计使用1225.4万次；春节期间理想辅助驾驶总里程达2.5亿公里，VLA指令使用次数达130.3万次。规模化的用户验证与持续积累的真实场景数据，为理想汽车推进下一代自动驾驶技术演进提供了坚实基础。

理想汽车提出下一代统一架构——MindVLA-o1。该架构以原生多模态MoE Transformer为核心，通过五大技术创新——3D空间理解、多模态思考、统一行为生成、闭环强化学习和软硬件协同设计，构建了面向物理世界智能的自动驾驶基础模型。

MindVLA-o1是理想汽车面向物理世界智能核心AI框架的重要组成部分。该框架不仅服务于汽车，也可扩展至机器人及各种物理系统。对理想汽车而言，车是最大号的机器人，其本质是在构建硅基生命体的躯干与大脑。

文/北京青年报记者宋霞
摄影/北京青年报记者宋霞
编辑/李涛