火山引擎发布大模型训练视频预处理方案,已应用于豆包视频大模型
北京青年报客户端 2024-10-15 16:02

10月15日,火山引擎在视频云技术大会上发布了大模型训练视频预处理方案,使模型能更高效地学习视频中的特征和知识,提升训练效果和效率。目前,该技术方案已应用于豆包视频生成模型。

据介绍,对训练视频进行预处理是保障大模型训练效果的重要前提,可以统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息。抖音集团视频架构负责人王悦表示,对大模型厂商而言,上述过程中面临着诸多挑战。“首先,超大规模视频训练数据集导致计算和处理成本激增,”王悦说,“其次是视频样本数据参差不齐,然后是处理链路环节多、工程复杂,最后还面临着对GPU、CPU、ARM等多种异构算力资源的调度部署。”

借助Intel的CPU、GPU等不同资源,火山引擎此次发布的大模型训练视频预处理方案依托于自研的多媒体处理框架BMF,能有效应对模型训练的算力成本挑战。此外,该方案还在算法和工程方面进行了调优,可以对海量视频数据高质量预处理,短时间内实现处理链路的高效协同,提高模型训练效率。值得一提的是,火山引擎本次还发布并开源了移动端后处理解决方案BMF lite版本。BMF lite支持端侧大模型接入和算子加速,更加轻量、通用。

此次活动中,火山引擎还发布了跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式AI实时交互方案和AIG3D&大场景重建方案。比如依托豆包大模型和火山引擎视频云自研的多项算法,火山引擎为用户提供了智能对话和自然语言处理的强大能力,可实现毫秒级人声检测和打断响应,以及丝滑稳定的端到端响应体验。

王悦还透露了字节自研视频编解码芯片的最新进展,经过抖音集团内部的实践验证,该芯片在同等视频压缩效率下,成本节省了95%以上,还在2024MSU世界编码器大赛中一举夺得最佳ASIC编码器。王悦表示,该芯片将于近期正式对外开放测试,招募首批种子用户,共同探索商业价值的可复制性。

文/北京青年报记者 温婧
编辑/田野

相关阅读
字节系大模型比同行便宜八成?火山引擎总裁:市场需要充分竞争,做得最好才能活下来
澎湃新闻 2024-12-19
群雄争霸多模态大模型
21世纪经济报道 2024-12-19
大模型使用价格步入“厘时代” 字节豆包商业化路径日渐清晰
上海证券报 2024-12-19
豆包概念股火了 AI应用指数涨至历史高位
第一财经 2024-12-14
中关村科金发布“三级引擎战略”, 加速大模型应用落地
北京青年报客户端 2024-12-13
价格便宜75%!亚马逊推出全新大模型系列,3纳米自研芯片明年上市
澎湃新闻 2024-12-05
腾讯大模型上线文生视频,并宣布开源
北京青年报客户端 2024-12-03
60秒内即可生成5秒AI视频,豆包视频生成模型Seaweed上线即梦AI
北京青年报客户端 2024-11-08
最新评论