北京青年报

Sora冲击波引领文生视频新浪潮多模态人工智能加速行业赋能步伐

证券时报 2024-02-24 21:07

“我们接触到的专业电影制作人对Sora很兴奋，都是持开放拥抱的态度，希望能用好这个工具提高生产力。” 从事LED虚拟拍摄的业内人士向证券时报记者表示，Sora能让电影制作前期创意环节的周期从过往数月甚至数年，缩减到数天，但并不认同Sora将让电影剪辑师这些从业者“原地”失业的说法，更多是赋能。

从2023年开始，多模态大模型开始崭露头角，文生视频并非新事物，还出现了Runway、Pika等现象级产品，但人工智能巨头OpenAI在2024年2月发布的首款视频生成模型Sora，则堪称建立起“世界模型”的标杆，将人工智能对真实物理世界的建模和预测推向了新高度，也引发对通用人工智能进化速度以及技术应用前景与挑战的热烈讨论。证券时报记者采访发现，不仅影视、游戏等内容创作行业公司积极应用相关文生智能技术进展，无人驾驶、医疗医药、生物制药等领域也在加速引用新兴人工智能技术。

构建“世界模型”

“继文本、图像之后，Sora的诞生意味着能够建立起理解和模拟现实世界的模型，是AGI实现的重要里程碑。” 万兴科技AI创新中心总经理齐镗泉表示。

据介绍，Sora底层采用了游戏、无人驾驶和机器人领域验证的世界模型，构建文生视频模型，达到模拟世界的能力。尽管Sora并非实现0到1的创新，但无论从文本到视频生成能力、多镜头生成能力等呈现的效果，都展现了新高度。不过，Sora在处理更复杂的物理现象时可能会遇到困难，在处理长期依赖关系上仍存在挑战，比如保持时间上的一致性和逻辑性。还有处理空间细节方面可能不够精确，可能影响到视频内容的准确性和可信度。

归结起来，当代人工智能应用的推陈出新，总是逃不过“大力出奇迹”的算力堆叠逻辑。不过，有观点指出，Sora背后算力并非那么重要，而且其模型规模小于预期。

国产芯片企业负责人向证券时报记者表示，Sora尚未开放测试，因此很多技术细节尚不明确，但根据已有的信息可以看到，Sora的模型规模并不大，甚至远小于预期，它是通过一种非常创新的方式，以较低算力资源实现视频语料的训练。因此，Sora的这种架构对算力的需求，并不是简单地要求更高的算力，而是可能在带宽以及其他方面有独特的要求。

“只能说Sora相对于GPT-4规模小点，” 云从科技战略技术总监温浩向记者介绍，得益于OpenAI开发了一个网络，减少视觉数据的维度，这个网络可以接受原始视频作为输入，并输出一个在时间上和空间上都进行了压缩的潜表征。Sora在这个压缩后的潜空间中进行训练，之后用于生成视频。所以Sore规模没有GPT-4大，但至少是比深度学习模型DALL-E至少大数倍规模。

业内专家普遍认为，相比以往文生视频应用，Sora核心技术突破还体现在扩散模型和语言模型相结合（Diffusion Transformer）。

在传统的Diffusion扩散模型中，数据的生成过程模拟了随机噪声逐渐消失的过程，使得模型可以从纯噪声中逐步还原出清晰的数据（例如图像）；Transformer则以其强大的全局注意力机制而著称，特别擅长处理序列数据，已经证实能够在自然语言处理任务中取得巨大成功，两者结合可应用于图像生成、视频生成以及其他需要处理高维度数据的任务中。

“从训练上看，Sora节省了从样本转化标准化样本的步骤，从效果上看，Sora可以生成60秒的超长长度视频，同时在3D一致性、远距离相干性等视频领域相比以往文生视频有了显著提升，”云岫资本副总裁俞枫向证券时报记者表示，目前还没有关于Sora的训练推理的算力消耗的具体数据，但是视频的算力需求相比文字会是几个数量级的提升，至少应当是数千张H卡级别的算力集群；算法层面通过Diffusion扩散模型+ Transformer模型的融合与优化，实现了生成视频过程中的一致性。

另一方面，Sora类应用对芯片层面也提出更高要求。

俞枫指出，由于数据量和复杂度的提升，Sora类应用对于芯片的算力和连接都提出了更高的要求，未来专门面向视频处理的算力芯片有机会会获得模型厂商的青睐。

前述芯片厂商负责人向记者表示，像AI算力芯片这样的大规模芯片，迭代周期通常在2~3年，远远慢于应用侧（AI模型层面）的迭代速度。因此对于芯片企业而言，如果想要紧跟趋势抓住应用机遇，一方面是需要打造软件平台，让现有产品能够尽快适配全新的应用需求；并且能在下一代产品中能够前瞻性地预见到一些市场趋势带来的技术需求，提前在设计中布局进去。

拥抱颠覆式工具

近期有市场消息称，字节跳动在Sora引爆文生视频赛道之前，已在研发一款名为“Boximator”的创新性视频模型，相当于中文版Sora。

对此，字节跳动相关人士回应证券时报记者表示，Boximator只是视频生成领域控制对象运动的技术方法研究项目，目前还无法作为完善的产品落地，距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

尽管海内外文生视频的技术水平尚有差异，业内普遍预测，2024年人工智能向多模态模型演变将成为重要的趋势，即模型能够处理和整合来自不同模态（例如文本、图像、视频、音频等）的数据。Sora的出现更是将全球目光聚焦于视频生成领域，有望大幅降低短视频等内容创作门槛。记者采访注意到，视频、游戏、动画等创作公司已经表态密切关注Sora和积极布局相关文生视频应用。

盛趣游戏艺术专家委员会执行主席、美术中心美术总监林蕤向证券时报记者表示，Sora潜力远超影片生成工具的范围，公司对AI视频生成技术接入实际研发管线保持乐观。据介绍，盛趣游戏从2023年开始就在努力推动AIGC视频生成工具在游戏过场动画、角色形象表现、风格转化、动效表现等方面的落地应用并为之建设对应的生产管线。

巨人网络负责人也向证券时报记者表示：“公司在积极布局多模态大模型领域，聚焦游戏垂类创作场景，重点对AI视频生成、3D模型生成算法的稳定性、可控性进行深入研究与探索。公司已将自研AI视频风格迁移技术广泛应用于研运环节，赋能内容创意表达。”

玄机科技是国内最早尝试使用AI到实际动画制作流程中的动画制作公司，玄机科技董事长沈乐平接受证券时报记者采访时表示，Sora虽然只能生成1分钟的视频，但无疑在视频内容制作领域开辟了新的可能性。

“对传统动漫影视内容制作来说，Sora可以帮助覆盖动画制作流程的各个环节，帮助动画制作提高制作效率、降低成本并优化流程。从去年开始，AIGC就已经对全球，尤其是对我们行业产生很大冲击。Sora的出现更让很多动画人担心自己会被AI取代。AIGC几乎可以介入动画制作的各个流程，未来还会不断进化，未来可能动画各个环节都会融合AI来制作。”沈乐平说。

多家上市公司也纷纷表示关注和布局新兴AI文生视频技术平台机遇。

洲明科技作为A股LED虚拟拍摄头部上市公司，已经提出了LED+AI战略，在光显行业成为首个获得微软独立软件开发商（ISV）认证的企业，同时获得了OpenAI官方接入许可。洲明科技集团内容创意执行总裁、副总裁刘俊向证券时报记者预测，伴随Sora类应用降低专业门槛和屏幕成本，虚拟拍摄将从当前工业级市场拓展到广阔的企业级和消费级市场。未来一旦Sora对外开放接口，洲明科技有望第一时间使用到全球最先进的视频生成技术。

芒果超媒在互动平台表示，公司高度重视各类AI技术的研发和应用，对以Sora为代表的新兴AI文生视频技术平台保持密切关注。此前，公司已经组建了AIGC创新应用团队，研发上线“AIGC HUB”等内部应用平台，将AIGC技术广泛应用于媒资运营、广告投放、会员互动、视频剪辑、内容生产等业务场景。后续，公司将积极探索文生视频等新兴AI技术在传媒领域的落地应用与业态创新。

读者传媒在互动平台表示，目前，公司已尝试通过人工智能生成文章并编辑创作形成数字内容作品，通过人工智能创作杂志封面等。公司也在积极探索人工智能赋能“读者”品牌，尝试开发AI应用产品。未来，公司将继续积极探索自身品牌优势、内容优势与前沿科技深度融合，努力实现传统文化企业的创新。

创源股份也在互动平台上表示对以Sora为代表的新兴AI文生视频技术平台保持密切关注，目前公司已经组建了AIGC创新应用团队；国投智能表示，公司的AI-3300“慧眼”视频图像鉴真工作站，支持Sora的生成视频识别和鉴定，公司密切关注相关技术的发展，将根据市场需求情况，适时研发并布局相关产品和服务。

用户危机与行业赋能

相比内容创作环节积极拥抱Sora，传统编辑工具类应用恐遭受用户流失危机。有接近快手的人士分析认为，现有的短视频分为两类，一类由真人出镜带来的“核心资产”，Sora冲击或不大；另一类由素材集合而成，考验拍摄、创意能力，Sora对此类型影响更大。

美股中，Adobe成为遭受Sora收割的“重灾区”。在2月16日Sora问世当天，公司股价大跌7.41%，尽管公司计划推出AI助手，帮助生成PDF和其他文档摘要，并研究视频模型，但2月以来公司股价累计跌幅接近13%，回吐到去年11月水平。

万兴科技打造中国版Adobe，公司副总裁朱伟则向证券时报记者表示，Adobe的业务是为内容制作者提供工具和平台，只要不到通过文字输入就能直接生成电影的那天，对Adobe的影响应该就不会太大；而且对于万兴科技而言，有了文生视频功能后，更多人能参与创作视频，那么视频的二次编辑是必不可少的，对工具的需求实际上会更多。

另一方面，更本土化的数据、算力本地布局、更本土化的应用将成为大势所趋。朱伟指出， Sora在对于含中国元素和对中文的理解上，相对英文表现会偏弱。在全球来看，围绕中国本土的数据量并不算多，数据清洗、标注方面也缺乏共同标准，换个角度来看，这也将是一个“弯道超车”的机会。

齐镗泉也表示，未来的AIGC软件生态将相当于“若干大模型+海量小应用”。Sora作为视觉数据通用大模型的代表，有望成为视频创作类软件的基础设施之一，有望与万兴科技的天幕一起加速赋能数字创意软件应用。据介绍，天幕是音视频多媒体创作垂类大模型，由视频大模型、音频大模型、图片大模型、语言大模型组成。除文生视频外，天幕当前已迭代文生3D视频、视频AI配乐、数字人播报等近百项音视频原子能力。

Sora带来改变不会仅停留在内容创作领域。三六零董事长周鸿祎表示，有了大模型技术作为基础，再加上人类知识的引导，可以创造各个领域的超级工具，例如在生物医学、蛋白质、基因研究，包括物理、化学、数学的学科研究领域。

其中，无人驾驶成为业内比较公认的代表性场景。

数字孪生平台公司51WORLD的AI研发专家侯涛向证券时报记者表示，从场景生成的角度来看，Sora是有助于自动驾驶仿真业务的，同时，类似模型如何能够“脑补”生成仿真场景，仍然需要大量的数据，尤其是高质量的3D合成数据训练，这将需要以深度学习为框架训练后，千亿甚至万亿权重和偏置等参数联合运算来体现。

从现阶段来看，这些模型的可控制性和易编辑性，以及AI大模型的逻辑推理机制揭示等方面，才刚刚起步，未来需要更多高质量数据和更先进的AI架构与算法来迭代完善。据了解，目前在51WORLD公司内部，已通过AIGC技术，基于自然语言或草图输入等，进行了系统框架搭建设计、界面与算法代码编写、文档撰写、材质贴图制作，甚至3D单体模型新建等工作。这些新兴人工智能技术的应用，已较大幅提高了公司的工作效率和成果产出。

Sora等人工智能应用为医疗医药、生物制药等也带来了潜在的变革。

中国科学院院士、中国科学院深圳先进技术研究院副院长郑海荣在接受媒体采访时表示，随着分子医学的发展，数据科学的发展，我们正面临非常重要的变革机会，这是在医疗器械领域的新质生产力。Sora在与病人的交互，与诊疗技术的交互，还有大量的医学培训等，将有大量变革的机会。

川宁生物2月22日晚间公告，子公司上海锐康生物与金珵科技在生成式AI辅助合成生物制造方面达成合作。其中，金珵科技为上海锐康生物提供AI辅助研发服务，利用生成式AI辅助提升代谢途径中关键酶性能，用生成式AI预测复杂代谢途径中的靶点，从而提升终端小分子产品的效价、糖转化率和时空转化率，达到降本增效的目的。

编辑/樊宏伟