随着AI技术演进和应用场景的不断拓宽,多模态交互已经成为AI应用的重要趋势之一。
海内外科技企业相继布局AI视频生成赛道。比如,继今年2月首次发布Sora后,OpenAI近期正式上线Sora,并向包括美国在内的多数国家用户开放,用户可在OpenAI官网上体验Sora。
国内方面,字节跳动、快手、智谱AI、阿里云等科技企业纷纷发力视频生成模型。
与此同时,多模态AIGC市场规模有望持续增长。根据Omdia预测,全球生成式AI市场在未来五年将迎来爆发式增长,预计从2024年的146亿美元增长到2029年的728亿美元,增长幅度为五倍。
12月18日,2024火山引擎FORCE原动力大会在上海举办,火山引擎总裁谭待在接受21世纪经济报道等媒体采访时指出,大模型的商业化潜力巨大,同时,随着模型能力的提升,能解决的问题越来越多,应用的形态也将发生变化。
谈及市场竞争,谭待表示,目前大模型市场仍处于早期阶段,因此豆包大模型更关注用户需求。他认为,只有通过推出好的模型和合理的价格,才能让更多用户使用,进而产生更多反馈和创新。
豆包发布视觉理解模型
研究显示,人类接受的信息超过80%来自视觉。视觉理解将极大地拓展大模型的能力边界,同时也会降低人们与大模型交互的门槛,为大模型解锁更丰富的应用场景。
12月18日,字节跳动正式发布豆包视觉理解模型。
谭待表示,聊天功能是很基础的功能,在工作、教育等各种场景都可能用到,但要加上深度推理、图像视觉理解等能力,才能处理更复杂的任务,解锁更多场景。这也是模型发展空间越来越大的前提。
他认为,豆包视觉理解模型解锁了一个很大的场景。
“因为语言是描述世界的,但理解事情首先得靠视觉,就像我们坐在一起聊天,得看到、感觉到事物,再说出信息交互,所以视觉理解对大模型的调用量和场景会有很大帮助。”谭待说。
记者获悉,当前,豆包视觉理解模型的内容识别能力已经覆盖图像知识、动作情绪、位置状态、中国传统文化、文字信息、理解和推理能力(图表、数学、逻辑、代码等),以及更细腻的视觉描述能力(细节描述、指令遵循、多种文体创作等)。
值得一提的是,豆包视觉理解模型千tokens输入价格仅为3厘,一元钱就可处理284张720P的图片,比行业价格便宜85%,以更低成本推动AI技术普惠和应用发展。
谭待指出,豆包大模型市场份额的增长,得益于火山引擎“更强模型、更低成本、更易落地”的发展理念,让AI成为每一家企业都能用得起、用得好的普惠科技。
他还表示,更低成本、更低门槛的多模态交互,能够在教育、电商、旅游、门店管理、金融、医疗等领域极大地拓展AI应用的场景和边界,在各行业加速推动大模型的落地。
大模型高速发展
“今年是大模型高速发展的一年。当你看到一列高速行驶的列车,最重要的事就是确保自己要登上这趟列车。通过AI云原生和豆包大模型家族,火山引擎希望帮助企业做好AI创新,驶向更美好的未来。”谭待说。
今年以来,海内外多家科技企业积极投入资源押注视频生成产品,持续研发和迭代相关产品。
比如,相较于今年2月份首次发布的版本,OpenAI在12月10日上线的Sora新增Storyboard、Remix、Re-cut等功能,视频再创作能力大幅提升,还优化了视频生成速度及生成方式。
国内公司也紧随其后,纷纷发力AI视频生成产品。
6月,快手发布可灵AI视频生成大模型,其主要功能包括文生视频、图生视频、视频续写等,可生成长达2分钟、分辨率达1080P的视频。
7月,智谱AI上线视频生成产品智谱清影,并且在11月进行全新升级,支持生成时长为10秒的4K超高清视频。智谱清影还引入CogSound模型,可为生成的视频添加背景音乐。
8月,字节跳动推出即梦AI一站式创作平台,11月宣布即梦AI两大视频模型S2.0Pro和P2.0Pro正式全量上线。
记者获悉,近日,字节跳动视频生成模型PixelDance已在豆包电脑版正式开启内测,部分用户已开通体验入口。内测页面显示,用户每日可免费生成10个视频。
PixelDance视频生成模型于9月底首次发布,最早通过即梦AI、火山引擎面向创作者和企业客户小范围邀测,外部对其多镜头组合、运镜切换及人物运动能力评价较好。
据早期内测创作者介绍,当PixelDance生成10秒视频时,切换镜头3~5次的效果最佳,场景和角色能保持很好的一致性。通过小幅度、渐进式的提示词描述,PixelDance能生成魔术般的特效。此外,用户还可使用时序提示词、长镜头等技巧,增强视频的复杂度和表现力,对剧情创作非常友好。
目前,基于该模型的视频生成能力已在豆包电脑版陆续开放。豆包相关负责人表示,未来仍将持续开放和优化该功能,更好地帮助普通用户创作和表达。
行业应用落地加速
当前,大模型正在向各行各业加速渗透。
以豆包大模型为例,它已经与八成主流汽车品牌合作,并接入到多家品牌的手机、PC等智能终端,覆盖终端设备约3亿台,来自智能终端的豆包大模型调用量在近半年时间内增长100倍。
数据显示,截至12月中旬,豆包通用模型的日均tokens使用量已超过4万亿,较七个月前首次发布时增长了33倍。
在企业端的实践中,最近3个月,豆包大模型在信息处理场景的调用量增长了39倍,客服与销售场景增长16倍,硬件终端场景增长13倍,AI工具场景增长9倍,学习教育等场景也有增长。
“大模型本身在很多场景,特别是生产力场景里面会非常‘大’。这些场景与生产力性能、商业场景相关,增速并不比聊天类场景慢,现在呈现多元化发展。”谭待表示。
商业化方面,Omdia报告指出,生成式AI已经在各行各业得到广泛应用,尤其是在开源和专有大型语言模型(LLM)的推动下,生成式AI已经覆盖了120个行业应用场景。
根据中国互联网络信息中心(CNNIC)发布的《生成式人工智能应用发展报告〔2024〕》,截至2024年6月,我国生成式人工智能产品的用户规模已达到2.3亿人,占整体人口的16.4%。
编辑/樊宏伟