北京青年报

爱诗科技发布全球首个通用实时世界模型PixVerse R1

北京青年报客户端 2026-01-14 21:24

1月13日晚，北京科技公司爱诗科技正式发布PixVerse R1，全球首个支持最高1080P分辨率的通用实时世界模型。该模型首次将视频生成的延迟从“秒级”降至“即时”响应，实现了“所想即所见、所说即所现”的实时交互体验，代表了全世界范围内视听媒体领域的一次重要演进。

PixVerse R1的发布，标志着AI 视频生成正式迈入“实时交互”时代。其背后并非单一技术的跃进，而是由Omni 原生多模态基础模型、自回归流式生成机制，与瞬时响应引擎三大技术支柱协同构建的完整“实时交互世界引擎”。它将文本、图像、音频与视频融合为单一生成序列，实现真正端到端的跨模态理解与输出。通过引入记忆增强注意力模块，可生成任意长度的视频内容，并长期维持角色身份、物体状态与环境逻辑的一致性；并将传统扩散模型所需的50+采样步数压缩至惊人的1–4步，计算效率提升数百倍，让动态画面进入人眼可感知的“即时”响应阈值。

应用场景覆盖游戏、影视、娱乐、创意等多个领域：游戏中，非玩家角色（NPC）与环境可实时响应玩家操作；互动娱乐中，观众通过语音或手势实时塑造剧情走向；共创体验中，用户协同生成并重塑动态世界，涵盖科研实验、场景推演、经典影像重制到实时产品模拟。

例如，用户输入“一只猫跳上窗台，窗外下雨”，系统可同步生成1080P高清视频、雨声音效与动态光影；在交互过程中，若用户补充指令“把天空变成黄昏”，画面将在半秒内实现自然过渡。

爱诗科技创始人兼CEO王长虎表示：“无论是AI 原生游戏、互动电影，还是生成式直播电商体验，叙事都能‘所想即所现’。创作与消费的边界逐渐模糊：视频消费者同时也是创作者，能够在观看的同时立即调整和生成新内容。我们相信，智能化媒体应实时响应用户意图，让每个人都能成为动态叙事的创作者。”

文/北京青年报记者温婧
编辑/ 周超
签发编辑/ 马晓晴