北京青年报

“硬科技”涌现大模型加速落地应用

经济参考报 2024-09-20 15:49

视频生成模型“一键创作”高清动画，AI编程新范式逐步改变传统的编程模式，人形机器人徒手开瓶、制作咖啡……在9月19日开幕的2024云栖大会上，一批新产品和解决方案集中亮相，展现了人工智能正加快前沿技术创新迭代，面向产业的大模型正加速落地。

在对话框中输入一句话或添加一张照片，点击“生成视频”按钮，不到一分钟，一条8秒左右的短视频生成。大会展馆内，通义万相、Vidu、智谱等多个视频大模型产品吸引与会者体验。

今年初，文生视频大模型Sora在全球人工智能业内外引发广泛关注。近期，多个中国科技企业自主研发的视频生成产品加速上线和升级。“我们通过集成多项创新技术，有效解决画面表现力和大幅度运动等视频生成技术难题，可应用于影视创作、动画设计等领域。”通义万相现场工作人员一边介绍，一边在对话框输入“穿着滑冰鞋的小兔子在冰面上灵活移动的可爱场景”，随即一段高清、逼真的动画视频呈现在眼前。

与会人士认为，当前大模型已经具备文本、语音、视觉的多模态能力，能够开始完成复杂指令，技术快速迭代使其可用性大幅提升。

在此趋势下，面向人形机器人、汽车、制造、交通等多个领域，多项基于大模型最新应用加速落地应用。

大模型加持下，人形机器人拥有了聪慧的“大脑”、敏捷的“小脑”、灵活的“肢体”。展区内，星动纪元自研的人形机器人小星MAX全身拥有54个自由度，可以猜拳、按摩、稳定行走。“我们研究了人形机器人的操作大模型，基于语言和视觉信号的输入，通过操作大模型让人形机器人直接输出动作，这使得人形机器人有了举一反三的能力，可以只需要少量数据就能学会相关技能。”清华大学交叉信息研究院助理教授、星动纪元创始人陈建宇说。

在出行领域，“端到端”大模型是当下备受关注的自动驾驶解决方案。小鹏汽车董事长何小鹏介绍，过去2年，小鹏汽车与阿里云共建的AI算力规模提升超四倍，有了大模型的加持，自动驾驶试验车转向、变道像人开车一样流畅。

“之前的自动驾驶技术，是靠人来写算法规则，几十万行代码，仍然无法穷尽所有的驾驶场景。采用‘端到端’大模型技术训练后，AI模型可直接学习海量人类驾驶视觉数据。”阿里巴巴集团CEO吴泳铭说。

数据显示，我国完成备案并上线、能为公众提供服务的生成式人工智能服务大模型已达190多个，注册用户超过6亿。与会人士表示，下一步，行业大模型研发将带动企业级市场更加专业化细分化。应结合技术的特点和各个应用方向，提前做好前后端贯穿的机制设计，规划好技术路线，同时，在安全合规发展的前提下，持续推动产品的更快速迭代，创造更优的用户体验。

编辑/范辉