北京青年报

腾讯混元文生图模型开源采用Sora同架构

第一财经 2024-05-15 11:41

5月14日，第一财经记者从腾讯获悉，其旗下混元文生图模型Hunyuan-Dit升级并开源，参数量15亿，目前已在 Hugging Face 平台及 Github 上发布，包含模型权重、推理代码、模型算法等完整模型，企业与个人开发者可免费商用。该模型支持文生图功能且可作为视频等多模态视觉生成的基础。

随着腾讯混元文生图大模型入局，采用DiT架构（Diffusion Models with Transformers）的大模型玩家再增一名。OpenAI的视频生成模型Sora也采用DiT架构。腾讯方面介绍，混元文生图大模型是业内首个中文原生的DiT架构文生图模型，综合指标在文生图算法中排名第三。

此前混元文生图模型核心算子是U-net，现改为DiT。Dit是融合Diffusion和Transformers的架构之一，混元、生数科技、Sora都采用Diffusion+Transformers路线。该路线不仅被用于文生图，也用于视频生成。

编辑/范辉