北京青年报

生成式人工智能训练数据陷入版权争端 “投喂”大模型如何规范授权

科技日报 2024-02-09 07:30

近日，美国媒体《纽约时报》把OpenAI及其投资方微软公司告上法庭，指控二者未经授权就使用该媒体的数百万篇文章来训练人工智能大模型，要求被告销毁相关数据并对媒体损失负责。今年1月，OpenAI对此做出辩诉，称其训练是合理使用，且它们已提供了退出的选择。

这一争端引发了公众对于大模型训练数据版权的关注。我国法律如何看待大模型训练数据的版权情况，如何对大模型使用数据进行有效治理？2月初，记者采访了相关专家。

训练数据面临较高法律风险

大模型的训练数据究竟是哪儿来的？

去年，OpenAI首席执行官萨姆·奥尔特曼接受采访时表示，他们花费了大量的精力整合不同来源的数据，包括开源信息数据库、通过合作获得的数据以及互联网数据。但对于具体数据集的来源和细节，OpenAI尚未公开发布。

北京交通大学法学院副院长郑飞告诉记者，生成式人工智能的数据来源可以分为外界生产数据和自生产数据。其中，外界生产数据来源包括公共数据、数字图书馆、信息库、网络信息等，来源方式包括自行收集、公共下载、第三方购买、爬取、模拟生产等。自生产数据则来源于生成式人工智能应用时产生的相关数据。

郑飞指出，使用外界生产的数据通常面临着较高的法律风险。目前，OpenAI已经被多次指控侵犯著作权。早在去年9月，美国作家协会就组织包括电视剧《权力的游戏》原著作者在内的17位作家向法院提起诉讼，指控OpenAI在未经许可的情况下批量复制了他们受版权保护的作品。

外界生产的数据中，还有一类是开源数据。那么使用开源数据是否意味着可以规避法律风险？

北京智源人工智能研究院副院长兼总工程师林咏华也曾表示：“用于AI大模型训练的开源数据必须是合法地从公开或可公开获得的资源中收集的数据。”

侵权认定存在难点

针对生成式人工智能带来的法律风险，各国都在陆续出台、完善相关的政策法规。我国在去年7月公布的《生成式人工智能服务管理暂行办法》中，明确提到生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动，使用具有合法来源的数据和基础模型；对于其中涉及知识产权的，不得侵害他人依法享有的知识产权。

与之配套的是我国关于知识产权的相关法律法规。郑飞以著作权法为例向记者解释：“当前我国著作权法第24条以列举形式规定了合理使用的12种具体情形，以及‘其他情形’的兜底条款。生成式人工智能数据训练难以归属为12种具体列明的合理使用情形。至于兜底条款，从司法实践和法条解释的角度来说，也缺乏判例和法理依据支持。因此，目前不侵害知识产权获取数据的方式仅有授权，包括单独授权、集体授权、开放授权等。”

当前大语言模型的训练数据规模已达千亿甚至万亿级别，但针对大模型训练数据侵犯知识产权的判例却寥寥无几。郑飞表示，大模型是新生事物，针对大模型的侵权认定仍存在较多难点。

首先是发现。生成式人工智能的侵权不同于传统的网络侵权。它生成的内容是向特定用户提供的，本身并不具有直接公开性。因此，版权人如何发现自己的原创内容可能被大模型训练所使用，是首要问题。

其次是举证。大模型输出的内容是经过深度学习后输出的内容。这是机器内部的行为，具有一定的隐蔽性。对于版权人来说，难点是如何找到有力的证据，证明自己的原创内容被运用于训练AI。

最后是比例。相比于大模型训练数据侵犯知识产权，人们更为熟知的是一些小说作者抄袭其他书籍的案例。这些案例中，无一例外提到了抄袭内容比例。因此，对大模型侵权的认定，同样也需要证明两者之间的相似程度。

《纽约时报》诉OpenAI侵权案中，列出了多达100个证据，证明ChatGPT输出内容与《纽约时报》新闻内容高度相似。因此，这也被一些人认为是“迄今为止指控生成式人工智能构成侵权的最佳案例”。

利益平衡是关键

面对生成式人工智能带来的种种侵权风险，如何借助法律进行有效治理？专家认为，有几种常见的治理途径。

一是制定新的侵权责任法律。近年来，人工智能侵权责任立法不断被提及。事实上，不只人工智能冲击着现有侵权责任法，区块链、元宇宙也普遍面临新的侵权责任问题。“这一解决途径也存在问题。因为专门立法周期较长，难以配适日新月异的数字技术发展速度。”郑飞说。

二是创设单行监管条例。郑飞介绍，国家网信办自创设以来，就承担着监管职能，并不断根据技术发展动向及时进行单行条例立法。“特别是近年来在互联网算法、深度合成、推荐算法等方面都发布了不同程度的监管条例，为互联网行业合规经营设置了主要依据。”

其他方式还包括，在已有的侵权责任法律体系中添加关于人工智能责任的相关条款，为人工智能设计者和提供者添加特殊的条款来进行强调和补足；对现在已有的条款进行解释等。“就AI技术的发展水平及其当下立法技术成熟度而言，采取‘传统法律修正’模式是一种可行的方式。”郑飞说。

需要注意的是，对于新兴技术，法律治理的目的并不在于“禁止”，而是在于推动技术的合规发展、合法使用。北京大学法学院教授张平曾指出，我国目前的生成式人工智能技术创新还处在初级阶段，法律法规的制定应当给科技创新留有一定的发展空间，需要采取开放包容的规范原则。

大模型想要更“聪明”，就必须通过大量数据来强化学习。因此，如何平衡各方利益、寻求合作共赢是关键。正如郑飞所说：“人工智能训练数据合法性问题，本质上是个人利益与公共利益冲突的体现。如果缺少利益平衡原则，在利益分成时容易产生分歧。”

郑飞提出，版权集团或版权的集体管理组织可以通过集体授权的方式有效解决训练数据的权利许可问题，也可以通过知识共享许可协议搭建开源数据库，为大模型训练方提供权利许可便利。大模型训练方则可以为版权方提供更加优质、低费用的生成式人工智能接入服务，推动出版行业升级。

目前，大模型方正在与出版行业积极寻求合作。有消息称，OpenAI正在与数十家出版商洽谈内容授权协议。去年12月，OpenAI宣布与德国媒体巨头阿克塞尔·施普林格达成了“里程碑式”合作。根据协议，OpenAI将付费使用施普林格旗下出版物的内容，施普林格将提供其媒体品牌的内容，作为OpenAI大型语言模型的训练数据。

文/吴叶凡

编辑/倪家宁