北京青年报

国产大模型“诸神之战”出路何方

中国青年报 2023-06-12 14:38

1956年，达特茅斯学院的一场会议上，参会者热烈地讨论：如何开发出像人类一样能从经验中自主学习的计算机系统。这场会议被后人视为打响了人工智能研发的第一枪。

60余年后，美国OpenAI公司八年磨一剑的人工智能大模型ChatGPT3横空出世，人们争相在社交媒体展示它那令人吃惊的能力，ChatGPT4更是“所向披靡”：作诗、写文案已不在话下，它甚至有了逻辑推理能力，还能自我纠错。那场著名会议的答案似乎已不言自明。

前不久，在2023中国国际大数据产业博览会上，AI（人工智能）、大模型、ChatGPT、元宇宙等关键词频频出现。在以“人工智能”为主题的会场，人头攒动，听会的人从会场内排到了会议室门口，还不断有新来的人挤进来。

在不同的会场和论坛上，来自不同领域的人们似乎都聚焦一个兴趣点，他们试图搞明白人工智能会对未来行业带来哪些颠覆性的变革，国产大模型之路应该如何走，还有什么基础工作要做。

想解决实际问题，大模型还要“念个博士”

孙茂松让ChatGPT找出《阿房宫赋》中描写阿房宫的句子，令他惊讶的是，它竟然一字不漏地找出来了。

孙茂松是清华大学计算机科学与技术系教授，也是该校人工智能研究院常务副院长，他研究自然语言处理，跟ChatGPT“专业对口”。在演讲中，他多次感叹：“它确实厉害！”

考完文字功夫，孙茂松又问ChatGPT，如何根据《阿房宫赋》绘制阿房宫的图景。ChatGPT像写剧本一样分了5个场景：阿房宫的宏伟壮观、阿房宫建筑风格、水景与桥梁、春光与武殿、迷宫般的宫殿布局。

今年以来，ChatGPT的博学已经广为人知，但美国国家工程院院士、东方理工高等研究院常务副院长张东晓认为：“大模型有很强的能力，很博学，相当于中小学生。要解决实际问题，还要上大学，还要念一个专业、念一个博士，或是成为那个领域的工程师。”

过去这段时间，ChatGPT所属公司OpenAI已与科技、教育、金融等行业的数百家公司或组织开展合作。

孙茂松认为：“（大模型）可以重塑一个产业，也能够重塑产业的生态。”

他举了个例子：有人想订家酒店，要求价格别太贵，最好离王府井近一点，而且要安静一些。面对用户的种种要求，以前要做到这一点很费劲，秘书可能要花两个小时才能找到这么一家酒店。而人工智能大模型会跟用户学习订酒店的习惯，效率大幅提高。

中国产学研合作促进会会长王建华说：“在人工智能影像医学这个领域，我们把全国医院的放射科和一些影像医学相关的企业进行融合，解决看片子完全靠人去看（的问题）。通过人工智能的话，精准度比较高，而且它不疲劳。”

王建华注意到，现在有很多智能产品，比如可以通过大数据的对比，测定人体糖代谢水平。他认为，人工智能会影响到整个医学领域的创新和发展。

医渡科技有限公司创始人徐济铭更期待的是，人工智能能够加速新药研发。

新药研发是个漫长的试错过程，从细胞实验，到动物实验，再到一、二、三期临床试验，从实验室研究到上市可能需要10年、花费10亿美元——这被称为新药研发领域的“双十定律”。近年，辉瑞、阿斯利康等知名药企开始在新药研发领域引入人工智能，希望提高成功率、降低成本。徐济铭设想，通过人体多模态的数据构建一个模型，模拟人体器官的运作，在临床实验之前先通过这些系统模型做实验，AI可以由此造福人类。

在京东探索研究院资深算法科学家薛超看来，大模型就是未来的操作系统，它向上提供应用程序接口（API），向下可以兼容各种各样的硬件。比如，一个餐馆想要建立一个送餐机器人或者对话机器人，店主把餐馆的菜单输进大模型，这样就可以快速建立起功能机器人。

“AI未来会越来越平民化，越来越低门槛化，可以通过自然语言来控制它的整个交互。”薛超说。

研发大模型，提高数据“喂养”质量很关键

本届数博会上，知乎联合面壁智能发布了对话类模型产品“面壁露卡”。发布会上，主持人请它规划在贵州四天三夜的旅游路线。在“露卡”规划的旅游方案中，游客每天晚上都要从景点所在地返回出发点贵阳，第二天再出发前往下一个市州。路线略显冗长，好在覆盖了较为知名的景点和特色小吃。

上海交通大学人工智能研究院常务副院长杨小康称，国内的大模型研发可谓是“真正的诸神之战”，“据说有70几个大模型，甚至上百个大模型在研发”。他认为，研究大模型非常耗能，需要有序引导，形成合力。

贵安新区科创产业发展公司常务副总经理邓周灰提到“铁三角”理论：大模型是“大数据+大算力+强算法”结合的产物。他认为：“当前数据质量是一个比较堪忧的问题，国外进行大模型训练的时候，有很多不错的文献，还有一些科技文献，所以模型训练出来的智能化水平很高。但是我们现在在大模型训练的时候，大部分（语料）来自互联网，所以质量就不是特别理想。”

古人常说，兵马未动，粮草先行。在人工智能时代，数据正是“喂养”大模型的粮草。而在目前，“粮草”供应还存在大量现实困难。

晶泰智药技术（上海）有限公司副总裁王明泰说，数据需要标注和清洗，但医药研发领域有大量数据无法标注。王明泰表示，蛋白质序列可达到十亿级以上，但目前能够找到的蛋白质功能数据少之又少，“中间有巨大的差距”。

他还表示：“现在的数据主要是靠人做实验，然后提取录入系统，再‘喂’给机器学习。目前我们保守估计，中国可能有超过20万人在为全世界医药研发企业做实验，这些人可能都是本科以上学历，以后可能（招不来）这么多人来做实验了。”这意味着数据产生的成本极高，而要“喂养”大模型，“必须是廉价产生的数据”。

在数据的源头，还存在标准不统一的问题。

达而观信息科技（上海）有限公司首席战略官刘江贤认为，要注意梳理我们究竟需要什么样的数据、怎样才能产生高标准的数据。他认为，首先要制订数据产生的标准和流程，选准产生大量有质量、有价值数据的区域，“要制定标准化生产的流程，才能够产生出我们想要的数据。”

在本届数博会的多场论坛上，嘉宾们提到了数据流通、交易的问题。

2020年4月，《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》对外公布，将数据定义为继土地、劳动力、资本、技术之后的第五大生产要素。2022年6月，中央全面深化改革委员会第二十六次会议上审议通过了《关于构建数据基础制度更好发挥数据要素作用的意见》，明确要建立数据产权制度、要建立合规高效的数据要素流通和交易制度、完善数据要素市场化配置机制。

北京雁栖湖应用数学研究院研究员、清雁科技董事长韩立岩接受中青报·中青网记者专访时解释说，数据成为生产要素、可以进入资产负债表，意味着它是企业资产的一部分，可以成为质押标的、帮企业融资，更可以为企业增信。这对于轻资产的科创企业尤为重要。

广州数据交易所总经理魏东说，湛江一家水产公司在广州数据交易所做了合规登记后，银行给予它的授信额度不仅增加了数倍规模，花费的时间也大为减少。

中国人工智能开源软件发展联盟副理事长王健宗说，以前数据不是生产要素，在企业产生后也不受重视，“可能都作为废品处理，有人要就拿走”。“现在（数据）定义为生产要素，毫无疑问大家都重视起来，一旦重视就是香饽饽了，共享和流通就存在了困难。”他说。

作为清华大学和北京雁栖湖应用数学研究院联合孵化的高科技公司，清雁科技正在建设“可信数据空间”，在这个虚拟空间里，他们努力让数据“可用但不可见”，由此既能促进数据资产的交易与共享，又能确保数据安全。

大模型产业之路，绕不开科技伦理和就业焦虑

上海山丘联康健康管理有限公司创始人、董事长颜艳春用充满诗意的语言表达了他的期待：“在工业文明时代，我们发现人类变成了机器，我们每个工人变成了流水线上的螺丝钉。ChatGPT会带来人类巨大的解放。”

他设想，人类也许不必“996”，“我们也许（每周工作）一天、两天就够了，因为有一个更庞大的‘新人类军团’正在面世。”

其实，新人类军团的“先遣部队”已经面世数年。早在2018年，戴姆勒金融服务就展示了它的第一个数字销售代表Sarah，她可以为人们计算买新款奔驰汽车的性价比，还可以为客户选择选装套件。同年2月，英国苏格兰皇家银行聘用了一位虚拟的客服机器人Cora，她了解客户喜好，能一眼识别出客户并叫出名字，一天能处理上千个问题，她还能从错误中不断学习。也是在2018年，瑞银集团宣布数字化“复制”了其首席经济学家，推出数字人……

颜艳春对于未来非常乐观：“我们认为，下一个50年，当碳基和硅基生命共生共荣时，每一个人都可能成为一个诗人，成为一个作家，成为一个导演，成为一个画家。甚至人人都有可能成为老师、医生和码农。”

他引用了泰戈尔在《飞鸟集》中的一句诗：信念是鸟，它在黎明仍然黑暗之际感觉到光明，唱出了歌。他说：“在当今人类文明高度‘内卷’的当下，我认为人工智能给我们带来了这样一场新的光明。”

一边是高歌猛进的人工智能技术，一边是技术担忧论：人工智能首先带来的，可能不是劳动力的解放，而是失业的浪潮。

孙茂松提到，过去20多年，人工智能给一些企业创造了巨大的价值；它还能使知识工作者的工作效率大大提高，预期到2030年，它会使财会人员的效率提高一倍、让程序员的编程效率提高两倍。

“这对公司是好事，对个人不一定是好事。意味着财会人员要砍掉一半，意味着75%的程序员可能不需要了。”他说。而剩下的人，需要拥有更高的水平。

文/李雅娟卢世龙

编辑/倪家宁