北京青年报

AI转场多模态百融云创率先推出全新智能代码生成工具

北京青年报客户端 2023-10-26 18:13

AI大模型生态正在纵深演化，纯文本形式的交互已经不能满足这个世界对于智能感知的全部需求，同时还需要结合音频、视觉、图片等形式，于是AI企业纷纷奔赴多模态。

先是OpenAI在近期发布了第三代文生图大模型DALL·E 3，可以在ChatGPT上加载使用；紧随其后，Meta推出了多模态编码器集合AnyMAL。

一系列重磅产品的推出使得多模态的讨论热度陡然上升。视线转回国内，逐鹿大模型的互联网巨头及AI科技公司亦在加紧开发更多的多模态应用，进一步释放AIGC生产力。

大模型生态进入下半场

正如业内流传的名言，“所有行业都值得用AI重做一遍。”在大模型对各行各业进行颠覆性重构的路上，面对不同场景的交互需求，除了传统的文本之外，还需要云服务厂商将其模态应用向图片、语音、视频、代码等形式转化。

但是这个过程绝非易事，看似简单的交互背后其实是多个AI能力的综合体现，既要能够识别用户需求、理解音频视频内容，还要转化为用户可以接受的形式，并给出有效反馈。

这其中，一大难题在于每种模态都具有特定的特征提取和分析方法，这便需要创新算法和技术来处理不同模态间的数据。以视频形态来说，市面上一直缺乏良好的方法对于视频场景做出充分理解，所以很多产品都只能按照某种固定逻辑生成，无法真正理解视频元素的含义。

在近期微软与OpenAI关于ChatGPT5的交流会中就谈到，OpenAI将攻克的一大目标是通过对于算法底层逻辑的融合、创新，让大模型能够充分理解视频内容以及各角色主体之间的关联，从而能够按照特定语境生成深层次的视频内容。

再以音频形态而言，不同于视频重在对于多维信息的把握，音频交互更为强调对情感、意图的充分掌握，由此对于语音识别技术便提出了更高要求，即要充分捕获情感、音色甚至是方言，从中准确地抓取关键信息。

在音频-文本的交互领域，国内走在前沿的是百融云创，该公司自研的智能语音机器人ChatBOT基于Transformer架构搭建算法模型，对于语音识别的准确率可以达到99%以上，实现“真人级”互动体验。同时，ChatBOT又不仅仅是聊天机器人，而是一个帮助实现端到端结果交付的智能体。ChatBOT直接关联商业机构KPI，可以助力商业机构实现资产运营和用户焕活流程的自动化。

而除了算法层面外，百融云创相关人士表示，多模态的智能交互对于模型的工程架构、响应速度、资源配置等均提出了更高要求，以文本-语音交互为例，需要依托深刻的行业理解来沉淀出高质量配对的语料，才能实现流畅、准确的用户交互。

大模型能力正在加速革新

从趋势上看，随着大模型进入拼落地、拼应用的下半场，为了让AI技术更加融入千行百业，多模态领域势必会以更快的速度发展。

目前来看，多模态的主流构建思路并不是重新训练一个大模型，而是在已经训练好的大语言模型中“嵌入”图像理解、语音识别等技术，也就是通过引入多模态的数据集来攻克跨领域的技术难点。例如，百融云创的产业大模型——BR-LLM便结合了NLP（自然语言处理）、智能语音等技术。

当然，也不乏一些科技公司尝试基于特定需求直接训练多模态基础模型。根据微软研究团队近期在预印本平台 arXiv 上发布的一篇文章，多模态基础模型将沿着预训练视觉模型和通用型助手两条路线拓展。文章同时表示，训练多模态基础模型面临若干挑战，例如，视觉理解模型方面，不同类型的标签注释成本差异较大，昂贵的图像成本可能会限制视觉数据规模。

但不论采取怎样的方式，毫无疑问大模型生态下半场已经打开。业内人士认为，随着模型能力的增强，AI应用范围将不再局限于单一功能或者单个产品，而是会扩围到更广阔的应用场景。在这样的背景下，能否快速、高效地将技术产品化，料成为决胜未来的关键因素。

百融云创相关人士表示，为了更好发挥BR-LLM的潜能，该公司基于大模型技术底座，持续推行产品革新。此前，为了让AI技术更加深入赋能垂直场景，百融云创优化原有机器学习平台ORCA，将其与生成式AI理念紧密结合，形成的全新产品ORCA-GPT可以利用BR-LLM的代码生成能力，极大地降低模型产品开发部署的周期和成本。

同时，伴随着与多模态发展相关的全新研究方向——“AI for Science”（AI辅助研发）逐渐崭露头角，百融云创率先捕捉到这一趋势，依托BR-LLM基座，于近期推出了一款全新智能代码生成助手——BRCoder。

据了解，作为一款通用的编程大模型，BRCoder以公司内部本地部署的代码生成大模型为核心，基于海量的优质代码预训练，可以根据提示结合当前编辑程序文件的上下文信息，自动生成代码，并配合IDE插件提升开发效率。

“BR-Coder将极大地提升程序员的开发效率，助力商业机构研发提质增效。”百融云创相关人士称，BR-Coder不仅能生成研发代码，还可以用于自动生成测试用例和单元测试、解答技术问题，在保障企业数据资产安全的同时，提升模型生成代码的一次采用率。展望后续，BR-Coder会进一步增强与编译环境的交互，为开发者提供更为全面和便捷的编程体验。

文/金仁甫

如有新闻线索或对上述内容有异议
请联系jianguocaijing@sina.com

编辑/范辉

打开北京青年报APP阅读原文