北京青年报

腾讯文生文模型将开源下一代视频模型时长将超30秒

第一财经 2024-05-21 11:41

大模型开源阵营再添一员。5月17日的腾讯云生成式AI产业应用峰会上，腾讯集团副总裁蒋杰表示，腾讯预计将在今年第三季度开源文生文模型，包括Hunyuan-S、Hunyuan-M和Hunyuan-L，分别用于手机端、PC端、云或数据中心部署。

蒋杰表示，在C端，5B（50亿参数）的MoE（混合专家）版本可在PC上快速跑起来，混元将对云和企业开发者开源的则是30B MoE模型。5月14日，混元已开源了文生图模型Hunyuan-DiT。

关于混元逐步开源的原因，腾讯混元模型应用负责人张锋告诉第一财经记者，大模型应用很多场景需要私有化，这种情况下只提供API（接口）不太能满足需求。腾讯混元文生图负责人芦清林则告诉记者，若业界不开放大体量的FounDiTion model（DiT基础模型），因数据及资源成本问题，独立研究人员乃至大型实验室都难以做出来，很多优化工作无法进行。

国内科技大厂中，华为、百度均未推出开源模型，其中百度坚持走闭源路线。而腾讯和阿里的大模型都走开源和闭源并行路径。以百度CEO李彦宏为代表，他认为有商业模式的闭源模型才能聚集人力和财力。有支持大模型开源的业内人士则告诉记者，开源对于推动大模型生态发展十分重要，效果好的开源模型还能给相关厂商的闭源模型打广告。

此外，记者了解到，混元大模型经历迭代，混元大模型已从单个稀疏密度模型改为多专家MoE模型，参数超万亿。蒋杰表示，混元大语言模型部分中文能力追平GPT4。混元文生图模型基础架构则由U-Net升级为DiT（Diffusion Models with Transformers），与视频生成模型Sora的架构相同。

混元在腾讯内部有不同尺寸的模型在应用，包括1B、3B、7B、13B的Dense（稠密）和MoE模型，目前大部分支持的是70亿参数。目前，腾讯内部有600多个业务接入混元大模型，包括微信、QQ。腾讯后续还计划发布基于混元大模型的面向C端的App腾讯元宝。

视频生成方面，蒋杰表示，混元最新一代基于DiT架构的视频生成模型可生成16秒视频，预计今年第三季度将推出的下一代文生视频模型可生成30秒以上视频。此外，蒋杰透露，大模型推理算力成本也有所降低，针对低端卡算力低、显存小的不足，腾讯使用自研Angel训练推理平台，调度异构卡集群，万亿大模型推理成本比开源减少70%。

近期多个大模型厂商降低大模型使用价格，引发业内对大模型算力成本下降的关注。

5月13日，OpenAI发布GPT-4o，价格仅为GPT-4 Turbo的一半，输入、输出每百万 tokens（文本单位）收费5美元、15美元。5月13日，智谱大模型开放平台上线新的价格体系，入门级产品 GLM-3 Turbo 模型调用价格下调80%，为1元/百万tokens。5月15日，字节跳动发布豆包大模型，其主力模型在企业市场的定价为0.0008元/千tokens，较行业平均价格便宜99.3%。火山引擎总裁谭待表示，字节通过优化模型结构、将单机推理改为分布式推理、混合调度云计算算力等降低成本。

腾讯云副总裁、腾讯云智能负责人吴运声则告诉记者，腾讯算力集群用自研星脉高性能计算网络，成本低于外购的相关网络设备，叠加使用Angel训练推理平台，使训练和推理过程中资源可更高效利用。从OpenAI和谷歌近期的发布会上看，两家厂商也做了优化，使推理成本大大降低。降低推理成本对推动大模型广泛使用十分重要。

编辑/范辉

打开北京青年报APP阅读原文