北京青年报

群雄争霸多模态大模型

21世纪经济报道 2024-12-19 12:05

随着AI技术演进和应用场景的不断拓宽，多模态交互已经成为AI应用的重要趋势之一。

海内外科技企业相继布局AI视频生成赛道。比如，继今年2月首次发布Sora后，OpenAI近期正式上线Sora，并向包括美国在内的多数国家用户开放，用户可在OpenAI官网上体验Sora。

国内方面，字节跳动、快手、智谱AI、阿里云等科技企业纷纷发力视频生成模型。

与此同时，多模态AIGC市场规模有望持续增长。根据Omdia预测，全球生成式AI市场在未来五年将迎来爆发式增长，预计从2024年的146亿美元增长到2029年的728亿美元，增长幅度为五倍。

12月18日，2024火山引擎FORCE原动力大会在上海举办，火山引擎总裁谭待在接受21世纪经济报道等媒体采访时指出，大模型的商业化潜力巨大，同时，随着模型能力的提升，能解决的问题越来越多，应用的形态也将发生变化。

谈及市场竞争，谭待表示，目前大模型市场仍处于早期阶段，因此豆包大模型更关注用户需求。他认为，只有通过推出好的模型和合理的价格，才能让更多用户使用，进而产生更多反馈和创新。

豆包发布视觉理解模型

研究显示，人类接受的信息超过80%来自视觉。视觉理解将极大地拓展大模型的能力边界，同时也会降低人们与大模型交互的门槛，为大模型解锁更丰富的应用场景。

12月18日，字节跳动正式发布豆包视觉理解模型。

谭待表示，聊天功能是很基础的功能，在工作、教育等各种场景都可能用到，但要加上深度推理、图像视觉理解等能力，才能处理更复杂的任务，解锁更多场景。这也是模型发展空间越来越大的前提。

他认为，豆包视觉理解模型解锁了一个很大的场景。

“因为语言是描述世界的，但理解事情首先得靠视觉，就像我们坐在一起聊天，得看到、感觉到事物，再说出信息交互，所以视觉理解对大模型的调用量和场景会有很大帮助。”谭待说。

记者获悉，当前，豆包视觉理解模型的内容识别能力已经覆盖图像知识、动作情绪、位置状态、中国传统文化、文字信息、理解和推理能力（图表、数学、逻辑、代码等），以及更细腻的视觉描述能力（细节描述、指令遵循、多种文体创作等）。

值得一提的是，豆包视觉理解模型千tokens输入价格仅为3厘，一元钱就可处理284张720P的图片，比行业价格便宜85％，以更低成本推动AI技术普惠和应用发展。

谭待指出，豆包大模型市场份额的增长，得益于火山引擎“更强模型、更低成本、更易落地”的发展理念，让AI成为每一家企业都能用得起、用得好的普惠科技。

他还表示，更低成本、更低门槛的多模态交互，能够在教育、电商、旅游、门店管理、金融、医疗等领域极大地拓展AI应用的场景和边界，在各行业加速推动大模型的落地。

大模型高速发展

“今年是大模型高速发展的一年。当你看到一列高速行驶的列车，最重要的事就是确保自己要登上这趟列车。通过AI云原生和豆包大模型家族，火山引擎希望帮助企业做好AI创新，驶向更美好的未来。”谭待说。

今年以来，海内外多家科技企业积极投入资源押注视频生成产品，持续研发和迭代相关产品。

比如，相较于今年2月份首次发布的版本，OpenAI在12月10日上线的Sora新增Storyboard、Remix、Re-cut等功能，视频再创作能力大幅提升，还优化了视频生成速度及生成方式。

国内公司也紧随其后，纷纷发力AI视频生成产品。

6月，快手发布可灵AI视频生成大模型，其主要功能包括文生视频、图生视频、视频续写等，可生成长达2分钟、分辨率达1080P的视频。

7月，智谱AI上线视频生成产品智谱清影，并且在11月进行全新升级，支持生成时长为10秒的4K超高清视频。智谱清影还引入CogSound模型，可为生成的视频添加背景音乐。

8月，字节跳动推出即梦AI一站式创作平台，11月宣布即梦AI两大视频模型S2.0Pro和P2.0Pro正式全量上线。

记者获悉，近日，字节跳动视频生成模型PixelDance已在豆包电脑版正式开启内测，部分用户已开通体验入口。内测页面显示，用户每日可免费生成10个视频。

PixelDance视频生成模型于9月底首次发布，最早通过即梦AI、火山引擎面向创作者和企业客户小范围邀测，外部对其多镜头组合、运镜切换及人物运动能力评价较好。

据早期内测创作者介绍，当PixelDance生成10秒视频时，切换镜头3~5次的效果最佳，场景和角色能保持很好的一致性。通过小幅度、渐进式的提示词描述，PixelDance能生成魔术般的特效。此外，用户还可使用时序提示词、长镜头等技巧，增强视频的复杂度和表现力，对剧情创作非常友好。

目前，基于该模型的视频生成能力已在豆包电脑版陆续开放。豆包相关负责人表示，未来仍将持续开放和优化该功能，更好地帮助普通用户创作和表达。

行业应用落地加速

当前，大模型正在向各行各业加速渗透。

以豆包大模型为例，它已经与八成主流汽车品牌合作，并接入到多家品牌的手机、PC等智能终端，覆盖终端设备约3亿台，来自智能终端的豆包大模型调用量在近半年时间内增长100倍。

数据显示，截至12月中旬，豆包通用模型的日均tokens使用量已超过4万亿，较七个月前首次发布时增长了33倍。

在企业端的实践中，最近3个月，豆包大模型在信息处理场景的调用量增长了39倍，客服与销售场景增长16倍，硬件终端场景增长13倍，AI工具场景增长9倍，学习教育等场景也有增长。

“大模型本身在很多场景，特别是生产力场景里面会非常‘大’。这些场景与生产力性能、商业场景相关，增速并不比聊天类场景慢，现在呈现多元化发展。”谭待表示。

商业化方面，Omdia报告指出，生成式AI已经在各行各业得到广泛应用，尤其是在开源和专有大型语言模型（LLM）的推动下，生成式AI已经覆盖了120个行业应用场景。

根据中国互联网络信息中心（CNNIC）发布的《生成式人工智能应用发展报告〔2024〕》，截至2024年6月，我国生成式人工智能产品的用户规模已达到2.3亿人，占整体人口的16.4%。

编辑/樊宏伟