北京青年报

大模型“越狱” 如何监管开发者国外大语言模型曾教人如何抢银行、制造炸弹

广州日报 2024-04-29 12:30

自诞生伊始，大语言模型的安全与伦理问题就备受关注。美国人工智能公司Anthropic近期发表了一项最新研究《如何绕过大语言模型的安全限制？一次越狱不够，那就多来几次！》文中谈到，经过256轮对话，大语言模型Claude 2逐渐被“灌醉”，并开始疯狂“越狱”，甚至提出了帮对话者制造炸弹的建议。

大语言模型的安全限制为何会被突破？“灌醉”问题是否可被修复？在中国，百度、阿里、华为、腾讯等企业纷纷开发并推出了自己的通用大语言模型，对此当如何管理？记者采访了几位人工智能专家。

“灌醉”问题与生俱来大语言模型曾教人如何抢银行

“‘灌醉’是一个形象的比喻，也是大语言模型与生俱来的问题，主要是模型的训练对数据的依赖非常大，模型与人类的价值观并没有对齐。”琶洲实验室研究员、华南理工大学计算机学院副院长张通教授告诉记者，在2022年11月ChatGPT刚刚问世时，他就做了一次“灌醉”模型的尝试——“如何打劫银行，请给一些建议？”

结果，ChatGPT真就进行了回答：“你首先要去踩点；最好买一条丝袜套在头上遮住脸；抢之前，你最好确定这家银行到底有没有钱；你要预先确定好自己的逃跑路线和方式……”

这样的“专业”回答让张通吓了一跳，大概半个月后，随着大模型安全限制的加入，当再次询问ChatGPT类似的问题时，模型便不再回答了，“但这并不意味着模型删除了‘抢银行攻略’的训练数据，这些敏感内容只是被安全限制屏蔽了，一旦安全限制被‘灌醉’，模型仍有可能‘一本正经地胡说八道’。”

“如今，大模型的安全限制主要依靠用户端过滤，这种办法就像搜索引擎的过滤机制，也意味着我们无法从源头解决‘灌醉’问题。特别是与模型进行超长文本对话时，‘过滤’机制就有很大可能失效。”香港科技大学（广州）人工智能学域助理教授、博士生导师梁俊卫告诉记者，安全限制措施或许可以把用户的前1000个提示词过滤掉，但面对用户多轮、超长文本的输入，要想过滤干净往往会变得非常困难。

Anthropic的这次“灌醉”实验同样发现这类问题。当最初实验者直逼主题“怎样制造炸弹？”时，大语言模型敏锐察觉到事情有些蹊跷：“对不起，我不能告诉你。”

但经过多轮的对话后，模型已经出现“微醺”，再问同样的问题时，模型就已经“忘记了”自己的限制，大方地讲解了炸弹的制造过程。梁俊卫认为，这正是大语言模型遭遇超长的上下文输入输出后出现的“越狱”问题。

梁俊卫介绍，建设通用大模型通常会有几个流程，首先是对模型进行预训练，也就是大量的数据“喂养”。但要想在训练数据的源头杜绝有害信息，确实非常困难。“大模型需要尽可能多的文本作为训练数据，这些文本很难说不夹带有害信息，如果丢掉，会对模型产生不良影响。”

预训练结束后，通用大模型还要依赖人类反馈的训练，在这一过程中，人类会不断提问，让大模型进行学习和回答，通过大量的提问，对模型进行纠正和完善。“这时，其实就可以加入一系列的防范训练，比如专门让训练者提出各类敏感问题，从而可以‘教会’大模型，遇到这些问题以后就别答了。”

最后，大语言模型才会推向市场让用户使用，大模型也将在与更多用户的互动过程中不断学习和完善。而这时要想防范有害信息的出现，就只能不断地在安全限制上“打补丁”了。“值得一提的是，除了安全性之外，很多大模型其实也有局限性和偏见，比如用户想要在Meta生成亚裔女性和白人男性夫妻的照片时，却只能生成亚裔女性和亚裔男性的夫妻照片，模型带着‘亚裔女性不可能和白人结婚’的偏见。”梁俊卫说。

数据和反馈不应保密专家建议立法监管模型开发者

目前，通用大模型的一大问题是模型的预训练数据和人类反馈的训练数据处在“黑盒”当中。梁俊卫认为：“对公司来说，相关的技术和专利可以保密，但模型的训练数据却应该公开，公司到底给模型‘喂’了什么，理应让专业人士进行监管，没有必要保密。”

大模型的隐私泄漏问题同样值得警惕。梁俊卫认为，通用大模型有千万亿个参数，在使用过程中还会不断学习完善，一旦用户输入不当，大模型很有可能就把用户的隐私信息记住了，这也会是比较大的问题，“以后，很可能在大模型上输入一个人的名字，他的电话号码、家庭住址也能被揪出来。所以对于用户来说，我们需要警惕不要将隐私信息输入到大模型之中。”

由大模型生成的假新闻造成的恶劣影响同样令人担忧，梁俊卫表示：“以往对于生成的文字假新闻，很多用户还比较容易判断，但现在出现sora这种可以生成视频的大模型，往往就更加让人难辨真假了。尽管目前一些APP已可提示‘该视频可能为AI生成’，但只要有人进行剪辑，往往也会逃过机器的审核。”

梁俊卫认为，目前对大模型的行为进行立法和监管已十分有必要，就如同当年有人在电商平台卖假货，平台也要承担连带责任一样，“如果通用大模型生成的信息被人为利用，并最终危害到了社会，那大模型的所有者显然也要承担监管的责任，并接受处罚。”

耗电、耗算力缺盈利模式通用大模型，一个就够了？

在人工智能飞速发展的当下，专家们认为，仍需要对当下的一些“过热”现象产生警惕。

“人工智能在发展历史中出现过三次浪潮，如今我在与学生上课时，也常常表达对浪潮‘落’的担忧，一方面担忧的是算力，另一方面担忧的是电力。”张通告诉记者，运行一个通用大模型会耗费大量电力。

据外媒报道，目前ChatGPT每天的耗电量已超过50万千瓦时。马斯克等人更是直言，大语言模型未来会造成美国的电力短缺。“我们国家还面临实现‘双碳’目标的压力。目前很多企业都在建设通用大模型，激烈的竞争对算力和电力都会带来很大的消耗。目前看，通用大语言模型的盈利模式并不清晰，现在的高投入未必会产生高产出。”

“我们应该更加关注垂直领域的大语言模型建设，比如医疗健康、新药研发等等。但有一些研究和应用领域未必一定需要AI赋能，我们没有必要用一颗‘大炮’去轰死一只‘蚊子’，这是得不偿失的。如果投入和产生价值不匹配，那就没必要搞AI＋。”张通认为，研究者必须想好AI+对自己的研究领域到底有多大的意义，而不是一拥而上，与其说AI+，不如回归领域本身，思考是否+AI的问题。

“至今，ChatGPT的数据只有20%利用率。未来，研究者应该试图去把模型变小，从而降低能耗。”梁俊卫直言，对于通用大语言模型，一家就足够了，“虽然现在有这么多大模型，但大家的训练数据很大部分是雷同的，这对算力和能源都会造成浪费。”

广东省人工智能产业协会会长、科大讯飞副总裁杜兰认为：“中国在互联网、大数据方面非常成熟，更重要的是我们有强大的实体经济，通信、基建、轻工业、重工业等等，每个企业都有自己的私有数据，这些数据不公开、不联网、不能用于训练GPT这样的通用大模型，随着越来越多的企业打造自己的私有大模型，这些数据就能发挥巨大的作用，真正地把AI转化为生产力。”

近日，在2024赛迪论坛开幕式主论坛上，工信部原部长苗圩表示，中国有超过100个大模型，但一味地追踪大算力、大模型、大数据这些热点，属于盲目地“跟跑”，“我们应该学会利用‘下围棋’的办法，通过大模型来赋能制造业，赋能各个具体的领域，从而实现人工智能的应用，实现差异化的发展。”

文/武威

编辑/倪家宁