AI大模型生态正在纵深演化,纯文本形式的交互已经不能满足这个世界对于智能感知的全部需求,同时还需要结合音频、视觉、图片等形式,于是AI企业纷纷奔赴多模态。
先是OpenAI在近期发布了第三代文生图大模型DALL·E 3,可以在ChatGPT上加载使用;紧随其后,Meta推出了多模态编码器集合AnyMAL。
一系列重磅产品的推出使得多模态的讨论热度陡然上升。视线转回国内,逐鹿大模型的互联网巨头及AI科技公司亦在加紧开发更多的多模态应用,进一步释放AIGC生产力。
大模型生态进入下半场
正如业内流传的名言,“所有行业都值得用AI重做一遍。”在大模型对各行各业进行颠覆性重构的路上,面对不同场景的交互需求,除了传统的文本之外,还需要云服务厂商将其模态应用向图片、语音、视频、代码等形式转化。
但是这个过程绝非易事,看似简单的交互背后其实是多个AI能力的综合体现,既要能够识别用户需求、理解音频视频内容,还要转化为用户可以接受的形式,并给出有效反馈。
这其中,一大难题在于每种模态都具有特定的特征提取和分析方法,这便需要创新算法和技术来处理不同模态间的数据。以视频形态来说,市面上一直缺乏良好的方法对于视频场景做出充分理解,所以很多产品都只能按照某种固定逻辑生成,无法真正理解视频元素的含义。
在近期微软与OpenAI关于ChatGPT5的交流会中就谈到,OpenAI将攻克的一大目标是通过对于算法底层逻辑的融合、创新,让大模型能够充分理解视频内容以及各角色主体之间的关联,从而能够按照特定语境生成深层次的视频内容。
再以音频形态而言,不同于视频重在对于多维信息的把握,音频交互更为强调对情感、意图的充分掌握,由此对于语音识别技术便提出了更高要求,即要充分捕获情感、音色甚至是方言,从中准确地抓取关键信息。
在音频-文本的交互领域,国内走在前沿的是百融云创,该公司自研的智能语音机器人ChatBOT基于Transformer架构搭建算法模型,对于语音识别的准确率可以达到99%以上,实现“真人级”互动体验。同时,ChatBOT又不仅仅是聊天机器人,而是一个帮助实现端到端结果交付的智能体。ChatBOT直接关联商业机构KPI,可以助力商业机构实现资产运营和用户焕活流程的自动化。
而除了算法层面外,百融云创相关人士表示,多模态的智能交互对于模型的工程架构、响应速度、资源配置等均提出了更高要求,以文本-语音交互为例,需要依托深刻的行业理解来沉淀出高质量配对的语料,才能实现流畅、准确的用户交互。
大模型能力正在加速革新
从趋势上看,随着大模型进入拼落地、拼应用的下半场,为了让AI技术更加融入千行百业,多模态领域势必会以更快的速度发展。
目前来看,多模态的主流构建思路并不是重新训练一个大模型,而是在已经训练好的大语言模型中“嵌入”图像理解、语音识别等技术,也就是通过引入多模态的数据集来攻克跨领域的技术难点。例如,百融云创的产业大模型——BR-LLM便结合了NLP(自然语言处理)、智能语音等技术。
当然,也不乏一些科技公司尝试基于特定需求直接训练多模态基础模型。根据微软研究团队近期在预印本平台 arXiv 上发布的一篇文章,多模态基础模型将沿着预训练视觉模型和通用型助手两条路线拓展。文章同时表示,训练多模态基础模型面临若干挑战,例如,视觉理解模型方面,不同类型的标签注释成本差异较大,昂贵的图像成本可能会限制视觉数据规模。
但不论采取怎样的方式,毫无疑问大模型生态下半场已经打开。业内人士认为,随着模型能力的增强,AI应用范围将不再局限于单一功能或者单个产品,而是会扩围到更广阔的应用场景。在这样的背景下,能否快速、高效地将技术产品化,料成为决胜未来的关键因素。
百融云创相关人士表示,为了更好发挥BR-LLM的潜能,该公司基于大模型技术底座,持续推行产品革新。此前,为了让AI技术更加深入赋能垂直场景,百融云创优化原有机器学习平台ORCA,将其与生成式AI理念紧密结合,形成的全新产品ORCA-GPT可以利用BR-LLM的代码生成能力,极大地降低模型产品开发部署的周期和成本。
同时,伴随着与多模态发展相关的全新研究方向——“AI for Science”(AI辅助研发)逐渐崭露头角,百融云创率先捕捉到这一趋势,依托BR-LLM基座,于近期推出了一款全新智能代码生成助手——BRCoder。
据了解,作为一款通用的编程大模型,BRCoder以公司内部本地部署的代码生成大模型为核心,基于海量的优质代码预训练,可以根据提示结合当前编辑程序文件的上下文信息,自动生成代码,并配合IDE插件提升开发效率。
“BR-Coder将极大地提升程序员的开发效率,助力商业机构研发提质增效。”百融云创相关人士称,BR-Coder不仅能生成研发代码,还可以用于自动生成测试用例和单元测试、解答技术问题,在保障企业数据资产安全的同时,提升模型生成代码的一次采用率。展望后续,BR-Coder会进一步增强与编译环境的交互,为开发者提供更为全面和便捷的编程体验。
文/金仁甫
编辑/范辉