2013年,电影《Her》上映时,观众们还会觉得与主角自然交谈、对答如流的人工智能只是个遥远的梦想。
而十年后,ChatGPT问世,随之而来的是文心一言、Deepseek、kimi、豆包等众多模型的涌现。人们现在已经习惯于向AI提问、与之对话、获取知识和情感价值。AI可以为你答疑、陪你聊天,甚至成为私人定制的心理咨询师、虚拟恋人。
那么下一个十年,AI将如何深入塑造我们的生活?互联网精神之父、硅谷预言家凯文·凯利在新作《2049:未来10000天的可能》中,以2049年为节点,想象了一个由AI驱动的高科技社会。
KK预测未来的第一个模型是观察当下富人在做什么,使用什么昂贵服务,并思考哪些事会因为科技的变化而被大多数人掌握。对富豪而言,由私人秘书来安排自己的工作,由管家来打理自己的生活,这是司空见惯的。
因此,在KK的想象中,到2049年,每个人都会拥有像私人秘书一样的AI助理,它会像GPS导航一样普遍,像电影《Her》中的助理一样智慧生动。但是未来的交互方式与现在的可能完全不同。
AI助理长什么样?智能眼镜取代智能手机
AI助理演进的过程会遵循从专业到通用的原则,也就是说,先出现好用的刀具、剪刀、螺丝刀,再出现多用途的瑞士军刀。
在未来,我们需要一个通用的AI助理,它可以处理很多事情,而且会比现在的一些客服呼叫中心的AI助理聪明得多。比起单一用途的AI助理,要训练出一个针对你个人需求的通用AI助理,并且让它达到人们愿意为其付费的水平,还需要很多年。
但相对实用的AI助理会在未来5年内出现。它最初的形态可能是由电商平台提供的零售助理,针对你的需求向你免费推荐商品和服务。之后更为全能的AI助理会出现,它会作为你的秘书和管家,帮你查阅邮件、做旅行规划等。我们对AI助理的依赖也会日益增加,而这种依赖其实是对智能手机依赖的延续和深化。
AI助理会以什么形态出现呢?KK认为会有多种形式的尝试。在决定它的形态时,我们会问一系列的问题,比如:
它是你时刻都能感知到的东西吗?
它会出现在你的视线中吗?
它是你看不见但可以直接对话的东西吗?
它是否需要一个屏幕?
只要互动方式很智能,AI助理就可以有不同的形态,比如虚拟世界中的虚拟人,耳朵边随时在线的语音助理,或者通过智能眼镜可以看到的以AR形式出现的各种提示。而最有可能的就是植入智能眼镜或者智能穿戴设备,智能眼镜和智能穿戴设备也将是下一个各方争夺的关键点。
如今,智能手机得到普及,人们每天使用它来完成多项任务。到了2049年,大多数智能手机将被智能眼镜取代。智能手机的推出,让人们拥有了触摸屏这种全新的人机交互界面。与此类似,智能眼镜将会把人机互动的方式从键盘、鼠标和触摸屏转换到更加自然的互动方式。
我们在使用键盘、鼠标和触摸屏时都是人迁就机器,使用“机器的方式”与机器沟通。在智能眼镜时代,我们可以用肢体、手势和眼神,在虚拟世界中探索,在现实世界中与机器交流。当然,更重要的是我们可以通过语言,向无处不在的AI助理提问。
苹果公司将这样的未来称为空间计算(Spatial Computing)。 Vision Pro头戴显示设备虽然不温不火,但它在探索未来的人机交互方式方面有可能走在前面。现在Vision Pro已经开始推动用手势来与机器交互,未来还可能推出新的信息展示和处理方式。
实现这一未来的最大挑战是如何做出既透明通透又可以展示图像的智能眼镜镜片,这种技术现在还没有完全成熟。触摸屏的发明和广泛使用真正推动了智能手机的普及,因为它既可以显示影像,又能够感知到我们的点击和滑动。所以,一种能够集AR和VR于一身的镜片,将让智能眼镜成为真正的“下一个伟大创新”(Next Big Thing)。
AI助理可以做什么? 像app一样丰富的AI bot生态
正如电影《Her》中,不同的智能助理彼此之间有联系一样,未来会有API(应用程序接口)让AI助理相互连接,它们之间会使用协议进行沟通,绕过我们人类常用的语言或者文字。我们将进入B2B(bot to bot,机器人程序到机器人程序)时代,AI助理之间可以进行协作。它与手机的操作系统类似,我们也可以把它称为AIOS(AI 操作系统)。
企业通过设计bot(机器人程序)来为人们提供服务,这些bot就像智能手机里的各种APP(应用程序)。大多数应用——比如相机、音乐播放器、笔记本、钱包、钥匙、通讯录、地图、日历、手表和银行,智能眼镜都将继续提供,而且它包含的应用只会更多。智能眼镜将取代视频通话设备、医院的诊室、大多数教室、显示器、大屏幕电视、游戏控制器等等。
一开始,人们可能还会自己来决定使用哪一家的专业bot。但随着AI助理变得日益智能,至少在人类日常生活领域,比如出行、订餐、采购日常用品、订票等,它都会替用户做出选择。人类直观的感受是这些日常琐事都会被AI助理打理得井井有条,不再需要自己费心。
在B2B的世界中,AI助理将与各种bot连接,不再需要人类经手。AI助理就像是每个人的管家,你只需要与管家打交道,管家会处理其他所有的任务。这样的AIOS会引发群雄逐鹿。和智能手机的操作系统只有苹果和安卓一样,AIOS领域也将出现天然的垄断局面,会有两家公司(最多三家)主导市场。这些AIOS不一定是最聪明的,但它们必须是设计得最好、最直观的。
而“AI 应用”,也就是bot则会丰富得多,涵盖医疗、教育辅导、旅行、娱乐、电商、社交媒体等领域。bot的生态也会像智能手机APP生态一样变得越来越丰富。如果有一个更好的bot出现,AI助理会负责评估它,决定是否替换现有的bot。用户可以设定一个预算限制,让AI助理在这个预算内管理所有的bot,及时升级、更新它们,确保它们始终是最好的。
如果AI是未来的“电”,那么它对用户来说会是隐形的,bot也是如此,它对使用者而言是隐形的,这将引发巨大的商业创新机会。
在B2B的世界中也需要建立信任。未来关于B2B的交易将会非常多,如何确保双方的信任,如何确保合同的执行,智能合约所具备的不可篡改性将在这一过程中发挥巨大作用。同样,智能合约和AI一样对人们是隐形的,是一种企业级的应用,用户甚至不会意识到智能合约的存在。关键在于,将信任嵌入到合同的执行中去,以确保两个助理之间完成交易。为了解决信息造假问题,像加密和智能合约这样的技术对AI操作系统至关重要。
AI助理大显身手的世界——镜像世界
当数十亿人戴上这些智能眼镜时,他们看到的是现实世界与虚拟世界的叠加。对于这个虚拟世界,一些人称之为元宇宙,一些人称之为AR(增强现实),甚至是XR(扩展现实)。我称之为“镜像世界”,因为你所看到的既是现实世界,也叠加着一个现实世界的数字孪生。
如果你在厨房戴上智能眼镜,那么当你看向橱柜或冰箱时,你会看到里面的物品,而你的智能眼镜会直接在里面存放的物品上方显示其保质期。如果你询问眼镜某瓶饮料的成分,它就会向你展示一份成分列表,这样你就可以立即了解所需的信息。如果你在办公室,你的智能眼镜就会让你看到具有最高分辨率的虚拟场景,你可以将视频或文档放在你想要放置的任何位置。它还可以在你眼前创造一扇和真实的窗户无异的虚拟窗户,推开窗你就能看到坐在门廊里的父母,即使他们实际上远在天边。
如果你戴着智能眼镜出门,那么你可以沿着人行道上的蓝线走,它会显示你到达目的地的最佳路线。当在路上看到行人时,通过智能眼镜,你就可以看到他们头上的名字。在工厂或仓库工作的人可以模仿智能眼镜中生成的影子手来完成任务。在学校学习的医学生戴上智能眼镜可以看到3D(三维)的虚拟人类心脏,然后亲自拆解跳动的心脏,以了解它是如何工作的。公司的年轻实习生可以借助智能眼镜识别、了解和操作结构复杂的机器。当然,你也可以让访客造访你的客厅,通过智能眼镜,你会看到他们以虚拟形象坐在你家客厅的沙发上。
智能眼镜的普及只是镜像世界的一角。这将是一个无比透明的世界,也将是一个数据搜集和数据记录无处不在的世界。
智能眼镜会在用户使用过程中不断搜集个人数据,一方面是用户身处环境的数据,另一方面则是用户自身行为的数据,比如你在看什么,看了多长时间,你所在的位置等等。日积月累下来,智能眼镜就会知道你对什么感兴趣,从而变得更加懂你,甚至能判断你下意识的反应或者潜意识里的好恶。当然,它对你细微神情的捕捉也有助于让你在镜像世界中的替身表情更加丰富、逼真。
镜像世界是一个被360度全方位捕捉的世界。无数的摄像头和传感器将持续搜集数据,政府、个人、所有互联互通的机器和设备都将参与这个过程。这会产生海量的数据,需要超强的AI来处理。这是一个AI赋能的世界,需要无穷的算力。一个全功能的镜像世界,尤其是当所有人的镜像世界都可以共享的时候,所需的计算量是巨大的。只有在所有智能设备上都拥有主动式AI的情况下,我们才能实现广泛的虚拟世界共享。
几年前的元宇宙最缺乏的其实是优秀的3D内容。人们当时所能做的只是利用游戏引擎来创造虚拟空间,这种做法费时费力。但随着镜像世界所搜集的物理世界的数据越来越多,AI的能力将日益增强,无论是在虚拟世界中重现我们所熟悉的物理空间,还是将我们的想象轻松地转化成3D体验,都将变得容易得多,也便利得多。
AR需要AI,而且需要大量的AI。没有无处不在的AI,就不会有镜像世界。事实上,只有当AI足够廉价和丰富时,借助智能眼镜展现的镜像世界才能存在。人们可能会发现,大规模AI的主要用途是为镜像世界提供动力。
镜像世界将是下一代互联网,是一个每个人都可以在其中拥有身临其境的体验、AI赋能的沉浸式互联网。镜像世界给我们带来的最大变化就是让我们摆脱了对手机或者电脑屏幕的依赖,我们所处的真实世界会成为人机互动最主要的舞台,而虚拟世界又会成为我们发挥巨大想象力的空间。比如,游戏产业前景就很广阔,因为它本身就是真实世界的镜像。
未来,沉浸式体验将成为快消品。镜像世界中大多数UGC(用户生成内容)都将是3D沉浸式的,从目前以第三人称视角观看的平面媒体为主的基础内容(文字、图片和视频),转变为主要基于第一人称视角的全新沉浸式体验。人们可以通过智能眼镜实时参与,足不出户,就可以享受到接近真实的体验。除了无法制造出实体的产品,你在镜像世界中几乎可以模拟出人类社会的所有活动。
文/中信·出版
编辑/李涛