北京青年报
腾讯文生文模型将开源 下一代视频模型时长将超30秒
第一财经 2024-05-21 11:41

大模型开源阵营再添一员。5月17日的腾讯云生成式AI产业应用峰会上,腾讯集团副总裁蒋杰表示,腾讯预计将在今年第三季度开源文生文模型,包括Hunyuan-S、Hunyuan-M和Hunyuan-L,分别用于手机端、PC端、云或数据中心部署。

蒋杰表示,在C端,5B(50亿参数)的MoE(混合专家)版本可在PC上快速跑起来,混元将对云和企业开发者开源的则是30B MoE模型。5月14日,混元已开源了文生图模型Hunyuan-DiT。

关于混元逐步开源的原因,腾讯混元模型应用负责人张锋告诉第一财经记者,大模型应用很多场景需要私有化,这种情况下只提供API(接口)不太能满足需求。腾讯混元文生图负责人芦清林则告诉记者,若业界不开放大体量的FounDiTion model(DiT基础模型),因数据及资源成本问题,独立研究人员乃至大型实验室都难以做出来,很多优化工作无法进行。

国内科技大厂中,华为、百度均未推出开源模型,其中百度坚持走闭源路线。而腾讯和阿里的大模型都走开源和闭源并行路径。以百度CEO李彦宏为代表,他认为有商业模式的闭源模型才能聚集人力和财力。有支持大模型开源的业内人士则告诉记者,开源对于推动大模型生态发展十分重要,效果好的开源模型还能给相关厂商的闭源模型打广告。

此外,记者了解到,混元大模型经历迭代,混元大模型已从单个稀疏密度模型改为多专家MoE模型,参数超万亿。蒋杰表示,混元大语言模型部分中文能力追平GPT4。混元文生图模型基础架构则由U-Net升级为DiT(Diffusion Models with Transformers),与视频生成模型Sora的架构相同。

混元在腾讯内部有不同尺寸的模型在应用,包括1B、3B、7B、13B的Dense(稠密)和MoE模型,目前大部分支持的是70亿参数。目前,腾讯内部有600多个业务接入混元大模型,包括微信、QQ。腾讯后续还计划发布基于混元大模型的面向C端的App腾讯元宝。

视频生成方面,蒋杰表示,混元最新一代基于DiT架构的视频生成模型可生成16秒视频,预计今年第三季度将推出的下一代文生视频模型可生成30秒以上视频。此外,蒋杰透露,大模型推理算力成本也有所降低,针对低端卡算力低、显存小的不足,腾讯使用自研Angel训练推理平台,调度异构卡集群,万亿大模型推理成本比开源减少70%。

近期多个大模型厂商降低大模型使用价格,引发业内对大模型算力成本下降的关注。

5月13日,OpenAI发布GPT-4o,价格仅为GPT-4 Turbo的一半,输入、输出每百万 tokens(文本单位)收费5美元、15美元。5月13日,智谱大模型开放平台上线新的价格体系,入门级产品 GLM-3 Turbo 模型调用价格下调80%,为1元/百万tokens。5月15日,字节跳动发布豆包大模型,其主力模型在企业市场的定价为0.0008元/千tokens,较行业平均价格便宜99.3%。火山引擎总裁谭待表示,字节通过优化模型结构、将单机推理改为分布式推理、混合调度云计算算力等降低成本。

腾讯云副总裁、腾讯云智能负责人吴运声则告诉记者,腾讯算力集群用自研星脉高性能计算网络,成本低于外购的相关网络设备,叠加使用Angel训练推理平台,使训练和推理过程中资源可更高效利用。从OpenAI和谷歌近期的发布会上看,两家厂商也做了优化,使推理成本大大降低。降低推理成本对推动大模型广泛使用十分重要。

编辑/范辉

最新评论