北京青年报

双语数智人、AI楼宇管家…人工智能将怎样影响生活？|2023中关村论坛

北京青年报客户端 2023-05-28 20:19

更多资讯关注半两财经

正在召开的2023中关村论坛上，“人工智能”无疑是最热门的关键词。不论是自动驾驶还是智能穿戴，不管是量子计算还是5G通信，甚至是碳中和，众多前沿科技的背后都离不开人工智能技术的支持，可以说，未来十年，人工智能将继续改变各行各业以及普通人的生活。

在本次论坛国际技术交易大会板块、科博会展览板块、以及人工智能相关平行论坛上，北京青年报记者注意到，各大公司都带来了最新人工智能科技成果，包括视觉通用分割模型 SegGPT、5G音视频交互应用双语数智人 AI楼宇管家 AR眼镜实时显示对话等等……它们无疑代表了现在的“风口”和未来的方向。业内人士也表示，人工智能正深刻的改变这个时代，未来人工智能还将带来多个方面的应用变革。不过，大模型等也可能制造虚假信息，可能被坏人利用来做针对性的欺骗或洗脑用户。因此，开发时也需要同时研究控制它的技术，和管理AI的法律法规。

5G通信新应用可视自助服务带来交互新体验

最新数据显示，我国5G用户已达5.61亿，我国累计建成开通5G基站 231.2万个，全球占比均超过60%。而一季度全国平均5G下载网速为334.98Mbps，峰值下载速率为472.92Mbps。如此快的网速，再加上人工智能的支持，我们除了用来刷社交网络、日常办公学习，还可以用来做什么？

中国联通这次展出的“5G新通信智能交互平台”，就应用了5G“大带宽、低时延、泛连接”的特点，运用5G音视频交互与AI原子能力，结合AR&VR、三维建模、智能交互等先进技术，做到了5G内生服务下的音视频交互应用。平台运用多媒体、三维建模、实时跟踪、传感、智能交互等技术，实现端到端的可视化、智能化新通信服务，为企业、政府等提供5G音视频交互、智慧虚拟形象等功能。

比如，金融行业应用版平台提供可视自助服务、视图信息采集及5G远程柜台等创新能力，也就是说，通过这一平台，用户可以远程接入银行柜台服务，并拥有与现场办理同样的体验，以及个人隐私保护。

此外，能源行业应用版平台重构了井场智能联动系统应用体系，实现了井场资源数字化管理、井场巡护数字化编制，助力能源客户数字化型。交通行业版平台以5G新通信为基础提供无障碍智能通信服务，为老年乘客提供可视化交互的智慧助老服务，解决了多场景沟通问题，提供智能化一键呼入可视化服务。

特别是，这一平台在国产化适配与自主可控方面实现了平台与国产手机芯片适配；平台端支持国产化系统，手机侧适配华为麒麟芯片、联发科天玑芯片，支持华为，小米，OPPO，VIVO，魅族系列国产手机。

“数智人”更聪明与大模型融合能听懂你的话

数智人，简单来说就是虚拟人，借助拟人化的外表，人工智能的内核，数智人已经开始在众多行业中商业化落地，辅助人工服务，提升企业运行效率。例如，数字人在金融、文旅、传媒、公共服务、医疗、零售等行业场景中，可担任坐席客服、理财顾问、播报主持、导游导览角色；在文化娱乐场景，可以作为虚拟偶像、虚拟歌手等形成IP资产；在智能车载、智能交通、智能家居等场景，可以通过与智能设备结合，为用户提供智能化服务。随着数字人应用边界的不断拓展，产业价值也在不断扩大。

前不久，腾讯云智能小样本数智人生产平台首次对外发布，只需要3分钟真人口播视频、100句语音素材，平台便可通过音频、文本多模态数据输入，实时建模并生成高清人像，在24小时内制作出与真人近似的“数智人”。相较于2D真人精品数字人，小样本数智人无需专业影棚录制素材，成本更低；相较于照片生成、仅能呈现面部形态的数字人，小样本数智人可根据文本设计手势，唇动、口型、表情复现真人风格。

本届中关村论坛，北京青年报也尝试在用数智人虚拟主播，代替真人主播出镜，进行7*24小时的直播服务，吸引了诸多观众关注。

不过，以往的数智人，只具有简单的交互能力，比起真人来，他们的思考能力明显更弱。此次中关村论坛上，由智谱AI推出的 “智谱AI脑数智人”则更加聪明，它不再拘泥于固定的互动方式，而是初具理解人类指令意图的能力。

据悉，智谱AI由清华大学计算机系的技术成果转化而来，公司于2022年合作研发了双语千亿级超大规模预训练模型GLM-130B，并主导构建了高精度通用知识图谱，把两者有机融合为数据与知识双轮驱动的认知引擎，并基于此千亿基座模型打造ChatGLM。通过认知大模型链接物理世界的亿级用户、赋能元宇宙数字人、成为具身机器人的基座，赋予机器像人一样“思考”的能力。为了让数智人的思考方式更加像人类，ChatGLM 参考了 ChatGPT 的设计思路，在千亿基座模型 GLM-130B中注入了代码预训练，通过有监督微调等技术实现人类意图对齐。此外，它还是一个既会中文又会英文的双语数智人。

智慧城市更低碳 AI“管家“水电空调全都管

在智慧城市建设中，AI扮演着越来越重要的角色。例如，AI可以用于城市的基础设施管理，例如自动监测道路、桥梁和建筑物的结构健康状况，以及检测和修复道路上的裂缝和坑洼；AI可以帮助城市管理能源，例如通过分析能源使用数据来实现更高效的能源使用，以及优化城市的能源系统；AI也可以帮助城市保护环境，例如通过空气质量监测、垃圾处理和水资源管理等方面，提高城市的环境质量。

那么，如何利用AI给楼宇减碳来实现碳中和碳达峰的目标呢？恒华数元就在中关村论坛上展示了基于楼宇大脑神经网络系统碳管理平台。

这个平台从充分利用清洁能源的角度出发，集中引用性价比较高的技术产品应用，遍及楼宇末端传感感知节点和主要用能设备传感感知节点，通过楼宇大脑边缘计算服务器统一协调管理，使楼宇用能设备高效运转，尽可能排除不必要的能源浪费，根据边缘计算模型分析，楼宇各用能子系统能耗曲线处于平稳运行状态下，整体能耗是最低的。

其中，楼宇电力能耗应该占楼宇能耗的首位，针对楼宇弱电系统的特点，在不增加装修施工的基础上，研发出体积更小，计量准确，安装便捷的一套弱电监测及AI控制系统，可以对楼宇的电力系统进行动态的监控，确保无人区及时断电，避免不必要的电力浪费。楼宇空调系统耗能占到楼宇总能耗的40%，而且空调系统节能一直都是个难题，能耗居高不下，恒华数元通过和高校成立产学研基地，深度合作研发出针对楼宇冷、热源系统调优的策略算法，通过对算法模型的长时间训练，形成了成熟的数据算法模型，结合AI人工智能的应用，使得空调系统节能率达到10%以上。楼宇做为个体既能独立化运转，就像人体的某个器官，又能作为神经网络中的一个单元，配合其它楼宇大脑协同工作，从而有机的形成一个整体，发挥更大的效用。目前，这一项目已在广东、天津、江西、四川、湖北、安徽等省份落地。未来，我们所居住的小区、工作的写字楼、购物的商场等，都会向着绿色低碳的方向进化。

“无人驾驶”上街最新行人预测模型呼之欲出

如今在北京的亦庄等地，已经可以打到百度自动驾驶的车辆，用户像打普通网约车一样呼叫后，自动驾驶车会及时赶来，无需人工干预，自动带着乘客去目的地。虽然车上坐着工作人员，但他并非驾驶员而只是安全员，正常情况下，他的手是不会触碰方向盘的。未来，随着技术发展和政策批准后，安全员也会撤出，自动驾驶车辆会实现真正的无人化。

据百度公司介绍，无人驾驶技术核心是“百度汽车大脑Apollo平台”，包括高精度地图、定位、感知、智能决策与控制四大模块。最新的Apollo已经进化到引入多个基于深度学习的模型、发布了基于语义地图的低速行人预测模型、引入了基于语义地图的模仿学习，可以说，人工智能有多先进，自动驾驶才有多先进。

在本次中关村论坛上，旷视科技发布了自研智能托盘四向穿梭车系统。旷视智能托盘四向车作为柔性物流系统中的离散型设备，可以实现“一车跑全仓”。它具有灵活性高、场地适应性强、节能环保、能力提升空间大等优势，满足客户托盘物流存储、搬运和拣选需求。为什么说是“柔性物流”？旷视表示，主要是因为它具有离散型设备、分布式控制两大特点，用户企业可以像搭积木一样，根据需要灵活组合，柔性部署。不同于AS/RS的堆垛机只能在固定路径作业，四向车系统是由于其硬件产品即四向车是标准化的，一旦发生故障随时可以用新车替换。其次，柔性则体现在整个系统的“动态可扩展”，用户企业可以根据淡旺季以及业务增长等变化，随时增减四向车数量，提升系统承载能力。

AR眼镜实时显示对话智能穿戴设备助力无障碍

实际上，人工智能早已融入生活的方方面面，而搭载人工智能的设备也在小型化，比如智能手表已经代替传统的机械表，成为许多人的标配，他们通过智能手表接听电话、回微信、监测运动情况等；再如智能眼镜，它们的外形如普通眼镜，戴上后可以接打电话、听音乐等。

不过，中关村论坛上展示的这一智能眼镜，则更实用。这款名为“亮亮听语者智能眼镜”是一款双目光波导AR智能眼镜。不像VR眼镜，戴上后会沉浸在虚拟世界，AR眼镜不会阻挡视线，而是将现实世界与虚拟世界进行融合，从而实现一些在现实世界中无法做到的功能。

听力受损人群常常因“听不清”、“听不见”声音而在工作、社交、学习过程中遇到困难，听语者为他们提供一种新的辅助工具，帮助听力受损用户通过观看眼前文字的方式，理解别人在说什么。而用户戴上眼镜后可以将声音信息转换成文字在眼前显示出来。

它还具有同声传译功能，可以识别不同国家的语言，同时转换成汉字或者其他国家的文字呈现在用户眼前，帮助用户在国际语言交流的环境中方便的理解别人在说什么。在国际商务会议、出国旅游、跨境贸易工作等场景可以发挥重要的作用。

这款眼镜轻巧便携，机身仅重79g，相比于目前市面上200-300g的AR眼镜，其自重非常适合长时间佩戴，加上镜腿弧度可调节，佩戴舒适；还可以适配近视、远视、散光、老花眼等情况的镜片；眼镜外侧不漏光，保护隐私，内容仅自己可见；这款眼镜搭载了毫秒级实时字幕，降噪算法，5米内精准收音，转译准确率最高可达95%以上。据悉，该款产品目前已经具备量产能力。

隐私保护计算技术开源应用于金融医疗保险等领域

隐私计算技术是什么？最经典的是图灵奖得主、清华大学姚班创始人姚期智在《安全计算协议》里提出的著名的百万富翁问题：张三和李四都是富翁，但是财产并未披露，也不要可信第三方的情况下，两个人想要在不公布具体财产数额的情况下比出来谁更加有钱，这时候就用到了隐私计算（多方安全计算）。

隐私计算，也叫隐私保护计算，是指在保证数据提供方不泄露原始数据的前提下，对数据进行分析计算的一系列信息技术，实现数据在流通与融合过程中的“可用不可见”，从而实现数据价值的转化和释放。隐私保护计算对隐私数据提供了未来行业亟需的保护能力。

本次中关村论坛展览（科博会）上，蚂蚁集团首次公布以关键基础软件为核心的开源完整版图，9大核心技术全部开源，其中就包括隐私计算技术“隐语”。也就是说，这一技术平台面向全球用户开放，可无需调用和开发代码，直接使用产品功能，帮助用户低成本探索隐私计算应用场景。

据介绍，隐语目前已经在金融、医疗、保险等场景应用。如浦发银行联合蚂蚁集团隐语平台，基于多方安全计算的风险模型进行信用风险管理，识别出超过14.5万名高风险用户，阻止了数十亿人民币的高风险贷款的发放。在医疗方面，在医保支付改革的背景下，蚂蚁隐私计算平台和阿里云数字医疗团队合作，为医院搭建了面向医院运营管理的数据融合平台。该平台利用智能算法，包括图像识别、知识图谱及文本挖掘等技术，动态规范整个医护的临床行为，为管理者提供数字化绩效管理分析，帮助医院建立精细化运营管理体系，减少医院的经济风险或临床风险。此外,保险机构在理赔过程中，通过向医疗机构明文（即数据不加密）查询被保险人的诊疗情况，将会获得不必要的原始数据。而蚂蚁的解决方案将保险公司接入一些数据接口，通过设定数据逻辑查询，利用多方安全计算等隐私计算技术，使得保险公司只获得是否理赔的查询结果，不会获得各种原始数据，从而实现数据可用不可见（不出域），保护理赔用户隐私。

大模型将改变世界，开发的同时应研究控制技术

ChatGPT是2023年最引人关注的科技界新事物之一，它的发布也引发了语言大模型狂潮。国内研究者不甘示弱，百度、阿里、知乎、商汤、京东等多个公司纷纷推出了其大模型。AI另一个重大领域——视觉——的GPT时刻何时到来？在本届中关村论坛上，智源研究院视觉团队也正式推出通用分割模型 SegGPT，这是首个利用视觉提示完成任意分割任务的通用视觉模型。

据介绍，SegGPT 是智源通用视觉模型 Painter 的衍生模型，针对分割一切物体的目标做出优化。SegGPT 训练完成后无需微调，只需提供示例即可自动推理并完成对应分割任务，包括图像和视频中的实例、类别、零部件、轮廓、文本、人脸等等。

使用时，摈弃语言类大模型的传统思维，视觉大模型中与机器交互时不能使用文字，而是要使用图像。比如用户给出SegGPT一张图，并在上面将“彩虹”圈了起来，当用户再给许多张包含有彩虹的图片时，SegGPT就能自动识别上面的彩虹，并将这些部分圈出来。用户用画笔大致圈出行星环带，SegGPT就可以在预测图中准确输出目标图像中的行星环带。

那么，SegGPT是怎么做到的？据介绍，SegGPT将不同的分割任务统一到一个通用的上下文学习框架中，通过将各类分割数据转换为相同格式的图像来统一各式各样的数据形式。

具体来说，SegGPT的训练被定义为一个上下文着色问题，对于每个数据样本都有随机的颜色映射。目标是根据上下文完成各种任务，而不是依赖于特定的颜色。训练后，SegGPT可以通过上下文推理在图像或视频中执行任意分割任务，例如实例、类别、零部件、轮廓、文本等。

可以说，SegGPT “一通百通”：给出一个或几个示例图像和意图掩码，模型就能get用户意图，“有样学样”地完成类似分割任务。用户在画面上标注识别一类物体，即可批量化识别分割同类物体，无论是在当前画面还是其他画面或视频环境中。

此外，SegGPT还一触即通”：通过一个点或边界框，在待预测图片上给出交互提示，识别分割画面上的指定物体。利用这个特性，可以实现诸多功能。

比如在机器人的机械手上，如果识别不清的话，那么在拿去西红柿等物件时，可能会捏碎；然而通过分割，机器人就可以迅速知道西红柿的边缘在哪里，既能拿起西红柿，又不会捏碎，十分精准。

目前，国内大模型处在百花齐放、百家争鸣的状态下。百度创始人、董事长兼CEO李彦宏在中关村论坛也表示，因为大算力、大模型、大数据，导致了“智能涌现”。什么叫智能涌现？过去的人工智能是，我想让机器学会什么技能，就教它什么技能。教过的有可能会，没教过的就不会。大模型出现“智能涌现”之后，以前没教过的技能，它也会了。与此同时，人工智能发展方向从辨别式走向生成式。生成式AI，会让工作效率大幅度提升。有研究机构认为，在未来10年，知识工作者的效率可以提高4倍。

李彦宏说，最近一段时间，人工智能再次成为人类创新的焦点，越来越多的人认可第四次产业革命正在到来，而这次革命是以人工智能为标志的。“之所以成为焦点，是因为大模型。大模型成功地压缩了人类对于整个世界的认知，让我们看到了实现通用人工智能的路径。”李彦宏表示，“当下，我们正处在全新起点，这是一个以大模型为核心的人工智能新时代，大模型改变了人工智能，大模型即将改变世界。”

中国工程院院士、中国人工智能学会理事长、清华大学信息科学与技术学院院长戴琼海在本次中关村论坛人工智能大模型发展论坛上表示，人工智能正深刻的改变这个时代。比如，机器翻译替代了大部分人工翻译、语音识别替代了大部分人工倾听、人脸识别成为安防领域的常见模式、自动驾驶已经可以在城市道路行驶……未来，人工智能将通过感知、计算、重构、协同、交互等多个维度支撑着灵境智能（元宇宙）的发展。人工智能将带来多个方面的应用变革：面向科学研究新范式（宇宙起源、自然规律、生命奥秘）；面向人民生命健康（AI药物研发、远程虚拟手术）；面向经济主战场（虚拟创造、工业制造、灵境交互）；面向国防重大需求（多源态势分析、AI地空战线部署）等等。

创新工场董事长、首席执行官李开复表示，以大模型为代表的AI 2.0平台和应用将颠覆许多行业，包括：搜索引擎、电商/广告、金融、教育、影视/娱乐、元宇宙/游戏、医疗……不过，他也表示，AI仍会出错，比如“一本正经地胡说八道”，它只能被应用于生成内容初稿、开拓想法，而不能作为最终版本，AI需要持续的人工干预，避免谬误或灾难发生。此外，AI可能还存在一些法律/伦理问题，因此，AI并非适合所有的领域，比如金融、培训等。AI只能应用于容错度较高的应用中。

李开复也在论坛中提到类似问题，他表示，“AI 2.0可能制造虚假信息，这个缺陷不能完全杜绝。AI 2.0可能被坏人利用来做针对性的欺骗或洗脑用户。因此，开发2.0时，需要同时研究控制AI 2.0的技术，和管理AI 2.0的法律法规。”

文/北京青年报记者温婧
编辑/田野