1月13日晚,北京科技公司爱诗科技正式发布PixVerse R1,全球首个支持最高1080P分辨率的通用实时世界模型。该模型首次将视频生成的延迟从“秒级”降至“即时”响应,实现了“所想即所见、所说即所现”的实时交互体验,代表了全世界范围内视听媒体领域的一次重要演进。
PixVerse R1的发布,标志着AI 视频生成正式迈入“实时交互”时代。其背后并非单一技术的跃进,而是由Omni 原生多模态基础模型、自回归流式生成机制,与瞬时响应引擎三大技术支柱协同构建的完整“实时交互世界引擎”。它将文本、图像、音频与视频融合为单一生成序列,实现真正端到端的跨模态理解与输出。通过引入记忆增强注意力模块,可生成任意长度的视频内容,并长期维持角色身份、物体状态与环境逻辑的一致性;并将传统扩散模型所需的50+采样步数压缩至惊人的1–4步,计算效率提升数百倍,让动态画面进入人眼可感知的“即时”响应阈值。
应用场景覆盖游戏、影视、娱乐、创意等多个领域:游戏中,非玩家角色(NPC)与环境可实时响应玩家操作;互动娱乐中,观众通过语音或手势实时塑造剧情走向;共创体验中,用户协同生成并重塑动态世界,涵盖科研实验、场景推演、经典影像重制到实时产品模拟。
例如,用户输入“一只猫跳上窗台,窗外下雨”,系统可同步生成1080P高清视频、雨声音效与动态光影;在交互过程中,若用户补充指令“把天空变成黄昏”,画面将在半秒内实现自然过渡。
爱诗科技创始人兼CEO王长虎表示:“无论是AI 原生游戏、互动电影,还是生成式直播电商体验,叙事都能‘所想即所现’。创作与消费的边界逐渐模糊:视频消费者同时也是创作者,能够在观看的同时立即调整和生成新内容。我们相信,智能化媒体应实时响应用户意图,让每个人都能成为动态叙事的创作者。”
文/北京青年报记者 温婧
编辑/ 周超
签发编辑/ 马晓晴

