北京青年报

通用视频模型有望在12-24个月内出现

北京青年报客户端 2025-07-28 15:45

7月28日，在2025世界人工智能大会上，启明创投主管合伙人周志峰连续第三年发布启明创投AI十大展望。其中提到，通用视频模型有望在12-24个月内出现，该模型可处理视频模态下的生成、推理与任务理解，促进视频内容生成与交互的革新；具身智能机器人将率先在拣选、搬运、组装等场景实现规模化部署等。

基础模型方面，未来12-24个月，200万Token的上下文窗口将成为顶级AI模型的标配。围绕更大上下文窗口展开的更精细、更智能的上下文工程，会成为推动AI模型及应用发展的核心驱动力之一。

多模态模型方面，通用视频模型有望在12-24个月内出现，该模型可处理视频模态下的生成、推理与任务理解，促进视频内容生成与交互的革新。

AI Agent方面，两方面展望，一是未来12-24个月，Agent形态将从“工具辅助”走向“任务承接”，首批真正意义上的“AI员工”将进入企业，广泛参与客户服务、销售、运营、研发等核心流程，不再仅作为助手存在，而是具备协同作业、主动反馈、承担OKR等能力，推动从成本工具向价值创造转变。

另一大展望，多模态Agent将不断走向实用化，能够融合视觉、语音、传感器等多源输入，进行复杂推理、工具调用与任务执行，在医疗、金融、法律等行业率先实现突破。

AI基础设施方面也有两大展望，一是，AI芯片领域，将有更多“国设”且“国造”的GPU开启批量交付；与此同时，在3D DRAM堆叠、通算融合等发力创新的新一代AI云端芯片，也将在市场中崭露头角。

另一个是，未来12-24个月，Token消耗量将提高1至2个数量级，集群推理优化、终端推理优化、软硬协同推理优化成为AI Infra侧降低Token成本的核心技术。

AI应用方面，AI交互范式转移将在未来两年内加速到来，伴随用户对手机屏幕依赖的减弱与语音等自然交互方式的重要性上升，将推动AI原生超级应用的诞生。

另一展望，垂直场景中的AI应用潜力巨大，越来越多初创公司将凭借行业认知深耕细分领域、快速实现产品与市场匹配，以“Go Narrow and Deep”的策略与大厂形成差异化竞争。

最后一方面展望，AI BPO（业务外包）模式将在未来12-24个月实现商业化突破，从“交付工具”走向“交付结果”，并通过“按结果付费”的方式，在金融、客服、营销、电商等流程标准化行业快速扩张。

具身智能机器人方面，将率先在拣选、搬运、组装等场景实现规模化部署，积累大量机器人第一视角数据与带触觉的操作数据，构建“模型-本体-场景数据”的闭环飞轮。这一飞轮将驱动模型能力迭代，最终推动通用机器人迈向大规模落地。

文/北京青年报记者温婧
编辑/周超