科技公司对AI大模型的追逐战正在愈演愈烈。
4月11日,在2023阿里云峰会上,阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇正式宣布,阿里巴巴所有产品未来将接入“通义千问”大模型,进行全面升级。在他看来,面向AI大模型时代,所有的应用、软件以及服务都值得“重做一遍”。
“通义千问”是阿里最新推出的超大规模语言模型,于4月7日开始邀请用户测试体验。根据21世纪经济报道记者此前体验,通义千问可以进行文案创作、多轮对话等功能。
事实上,近期入局AI大模型的科技公司不仅止于阿里。就在阿里官宣全系产品接入“通义千问”的前一天,4月10日,商汤科技“梭哈”大模型,宣布以“大模型+大算力”推进AGI(通用人工智能)为发展战略。同日,游戏起家的昆仑万维同样放出自家的大模型成果,预告“天工”3.5将于4月17日启动邀请测试。
除了科技大厂之外,AI大模型创业大军也在扩容。同样是4月10日,搜狗创始人王小川宣布,他和前搜狗COO茹立云联合创办了人工智能公司——百川智能,旨在打造中国版的OpenAI基础大模型及颠覆性上层应用。这也是继美团联合创始人王慧文、创新工场创始人李开复之后的又一位AI大模型创业者。
“当前AI大模型仍是新兴技术,未来的竞争格局在一定程度上取决于各厂商的举措、战略方向与资本投资方向。”在接受21世纪经济报道记者采访时,IDC中国助理研究总监卢言霞指出,目前AI大模型处于百花齐放的状态,未来企业要想真正跑赢对手,需要包括数据、场景、软硬一体算力等多重能力。
挖掘新故事
你方唱罢我登场。过去的这几天,可谓国内AI大模型的一场狂欢。
从“通义千问”大模型正式开放邀测,到阿里巴巴官宣全系产品接入,阿里巴巴围绕大模型的一系列举措吸引了一众目光。它意味着,继微软、谷歌、百度等企业之后,又一家科技巨头更新了AI大模型的动态。
需要注意的是,虽然注定是巨头的牌桌,但在大模型上重新挖掘市场信心,吸引着一众玩家疯狂跟进。
4月10日,作为上一代AI独立创业公司翘楚的商汤科技“梭哈”大模型,宣布以“大模型+大算力”推进AGI(通用人工智能)为发展战略,并公布该战略下的“日日新SenseNova”大模型体系,推出自然语言处理、内容生成、自动化数据标注、自定义模型训练等多种大模型及能力。
活动上,商汤展示了“日日新SenseNova”大模型体系下的语言大模型“商量SenseChat”,现场演示写广告词、写邀请函、交替创作儿童故事、看长篇PDF文件并快速做阅读理解、编写代码等多样能力,能够支持包括帮助开发者更高效地编写和调试代码、为用户提供个性化的医疗建议、从复杂文档中提取和概括信息在内的诸多创新应用。
同样在4月10日,另一家游戏起家的昆仑万维也放出自家的大模型成果:“由昆仑万维和奇点智源合作自研、中国第一个真正实现智能涌现的国产大语言模型——‘天工’3.5发布在即,并将于4月17日启动邀请测试。”
昆仑万维所提的“智能涌现”,即AI的思维能力并不是随着“投喂”模型参数量的线性变化逐渐出现的,而是当参数规模超过某一阈值后,模型的思维能力突然涌现出来,即所谓大模型的“突现能力”(Emergent Abilities)。
4月9日,三六零正式宣布,基于360GPT大模型开发的人工智能产品矩阵“360智脑”率先落地搜索场景,将面向企业用户开放内测。据了解,企业用户在PC端360搜索首页申请并获得测试资格后,可通过企业安全云体验使用。未来,360智脑将与浏览器、数字助理、苏打办公、智能营销等场景应用深度结合,全面提升用户生产力和创造力。
京东集团副总裁何晓冬近日也公开表示,针对真实的产业需求,京东将在今年发布新一代产业大模型。科大讯飞副总裁、研究院执行院长刘聪亦透露,科大讯飞“1+N认知智能大模型”将在5月6日正式发布。
“各路厂家大模型的推出是仓促应战ChatGPT。”在接受21世纪经济报道记者采访时,浙江大学国际联合商学院数字经济与金融创新研究中心联席主任、研究员盘和林表示,“当前国内AIGC存在空窗期,需求有了,产品没有,此时各大厂家抢滩登陆AIGC是正确的策略。”
图片来源:视觉中国
AI军备竞赛
短期来看,无论是OpenAI、微软、谷歌,还是百度、阿里等厂商,短时间内都以其AI大模型布局吸引眼球,AI产业的“iPhone时刻”似乎正在以令人目不暇接的面目奔袭而至。
不过,一切新故事的背后,实则是科技企业长期技术积累后的“军备竞赛”。在ChatGPT引爆热潮之前,科技企业就已经在钻研AI大模型。此前几年大模型在学术界早就是热门话题,2023年才彻底引燃大众市场。
例如近日,随着AI大模型潮涌,外界对华为盘古大模型颇为关注,不过实际上,华为对大模型的探索很早就开启。“AI是华为云的核心竞争力之一,我们持续在AI领域投入研发,大模型是AI的重要技术方向。”华为云人工智能领域首席科学家、国际欧亚科学院院士、IEEE/CAAI Fellow田奇向21世纪经济报道记者表示。
据21世纪经济报道记者了解,2019年至2020年,盘古大模型就已在华为云内部立项,并且该模型也完成了与合作伙伴、高校的合作搭建。2021年4月,华为云盘古大模型就正式对外发布。
彼时,田奇就表示:“预训练大模型是解决AI应用开发定制化和碎片化的重要方法。华为云盘古大模型可以实现一个AI大模型在众多场景通用、泛化和规模化复制,减少对数据标注的依赖,并使用ModelArts平台,让AI开发由作坊式转变为工业化开发的新模式。”
百度同样在大模型领域沉淀已久。2019年,百度推出了文心大模型ERNIE 1.0。目前,ERNIE 3.0每天接受数十亿用户的搜索请求和其他百度移动生态App的训练。在搜索方面,自2019年3月以来,文心大模型在改进搜索结果方面发挥了重要作用,带来排名改进和多模态搜索能力。在云方面,AI专业知识为传统行业(如制造、能源和公用事业)提供特定AI解决方案和应用。
阿里巴巴亦自2019年起启动AI大模型研发,2021年4月,发布语言大模型“PLUG”;2021年10月,训练出多模态M6大模型,参数规模10万亿。2022年9月,阿里发布“通义”大模型,包括通义M6、Alice mine以及视觉模型。
商汤则近日一连甩出基于“日日新SenseNova”大模型体系的4款生成式AI应用平台。目前,商汤已打造CV(计算机视觉)、NLP(自然语言处理)、AIGC(人工智能内容生成)多个AI大模型,其SenseCore AI大装置拥有27000块GPU,可输出5000 PetaFlops算力,能够以最大4000卡规模集群进行单任务训练,并可做到7天以上不间断的稳定训练。
商汤表示,将基于AI大装置,向客户提供涵盖自动化数据标注、大模型推理部署、大模型并行训练、大模型增量训练、开发者效率提升等多种大模型即服务(MaaS,Model-as-a-Service)。
“在开源社区已经发布的大模型之外,目前提供商用的大模型包括微软Azure上整合的GPT大模型、百度智能云以及百度飞桨支持的文心大模型、华为云盘古大模型、阿里云M6大模型。由本土厂商研发的大模型,大多支持本地化部署。”卢言霞向21世纪经济报道记者分析称,“过去几年部署的AI应用,接下来几年都有可能被基于大模型的AI所替代。升级迭代可能会从优先具备海量数据的场景开始。”
行业大模型路线
在国内各大科技公司布局AI大模型之际,一个明显的趋势是,B端产业路线成为布局的重要方向。
需要指出的是,注重B端市场的大模型和ChatGPT并非在一个赛场,它们属于两个概念。ChatGPT是GPT系列大模型的一个应用场景,可以直接面向C端用户群体,而诸如盘古在内的大模型应用场景更多聚焦在B端的千行百业。
由此,行业大模型也随之应运而生。
“(大模型)和行业的结合落地方面,我觉得行业大模型会是一个重要的关键性机制。”此前,在接受21世纪经济报道记者采访时,百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜直言道。
事实上,百度也正在提速行业大模型的脚步。去年12月,百度联合多家企业和机构发布5个行业大模型,包括深燃-百度·文心、吉利-百度·文心、泰康-百度·文心、TCL-百度·文心和辞海-百度·文心。至此,文心已累计发布11个行业大模型,涵盖电力、燃气、金融、航天、传媒、城市、影视、制造、社科等领域。
盘古大模型同样积累了多个行业项目。据介绍,华为云AI已经在各行业有超过1000个项目,迄今为止陆续推出了矿山、药物分子、电力、气象、海浪等大模型。中信建投研报指出,目前盘古预训练大模型能力已经在包括能源、零售、金融、工业等领域得到验证。
比如,在医药领域,华为云联合西安交通大学第一附属医院,基于华为云盘古药物分子大模型研发出全新的广谱抗菌药物,将先导药的研发周期从数年缩短至一个月;在煤矿领域,华为云实现一个盘古矿山大模型覆盖矿山采、掘、机、运、通等主业务环节,大幅缩短模型开发时间,保障井下作业安全,2022年,盘古矿山大模型在山东能源集团正式商用。
刘聪同样透露,科大讯飞“1+N”认知智能大模型中,“1”是通用认知智能大模型算法研发及高效训练底座平台,“N”是应用于教育、医疗、人机交互、办公、翻译、工业等多个行业领域的专用大模型版本。
例如,在智慧教育领域,认知智能大模型可覆盖“教、学、考、评、管”的全链路场景,在学习评测、学情分析、个性化推荐等方面助力精准教学;在当下火热的AIGC领域,通过在文本、图像、音视频的创作上不断创新,认知智能大模型可以驱动AIGC的质量不断提升、成为未来内容生成的主力。
“未来三年,我们认为将会是大模型风起云涌的三年,AI将会和各行各业深度结合,AI for industries将是我们的主要方向。”田奇向21世纪经济报道记者指出。
编辑/樊宏伟