北京青年报

学术论文正被高价出售给大模型训练作者却零收入

澎湃新闻 2024-08-18 13:14

大语言模型（LLM）因训练数据问题再次引发争议。日前，国际著名期刊《自然》（《Nature》）杂志编辑伊丽莎白·吉普尼（Elizabeth Gibney）发布一篇题为《你的论文被用来训练人工智能模型了吗？几乎可以肯定》一文。文中作者表示，当前有越来越多的学术出版商正在将研究论文授权给科技公司，用于训练人工智能（AI）模型。有学术出版商借此赚取了2300万美元，而作者却收入为零。这些交易在很多情况下并未征求作者的意见，引发了部分研究人员的强烈不满。

“如果你的论文还没有被用作AI训练数据，很可能很快就会成为训练的一部分。”伊丽莎白·吉普尼在文中指出，当前学术论文作者在面对出版商出售其版权作品时几乎无权干涉。对于公开发表的文章，也没有现成机制来确认这些内容是否被用作AI训练数据。在大语言模型使用中，如何建立更加公平的机制保护创作者的权益，值得学术界和版权界广泛讨论。

大语言模型（LLM）通常依赖从互联网上抓取的大量数据进行训练。这些数据包括数十亿片段的语言信息（称为“标记”），通过分析这些标记之间的模式，模型得以生成流畅的文本。学术论文因其内容丰富、信息密度高，相比大量普通数据更有价值，是AI训练中的重要数据来源。数据分析师斯特凡·巴克（Stefan Baack）来自全球非营利组织Mozilla基金会，他分析指出，科学论文对大语言模型的训练有很大帮助，尤其是在科学主题上的推理能力方面。正是由于数据的高价值，各大科技公司纷纷斥巨资购买数据集。

该文指出，今年《金融时报》与OpenAI达成协议，将其内容授权给后者；被称为“美国贴吧”的Reddit也与谷歌签署了类似的交易。这些交易体现出版商试图通过合法授权避免自己的内容被AI模型无偿抓取。

文章透露，上月英国的学术出版商Taylor & Francis与微软签署了一项价值1000万美元的协议，允许微软访问其数据以改进AI系统。而在6月，美国出版商Wiley通过向某家公司提供内容用于AI训练，收入高达2300万美元。而这些巨额收入与论文作者没有任何关系。

当前，研究人员正尝试用技术手段帮助作者识别其作品是否被用于AI模型训练。西雅图华盛顿大学的人工智能研究员露西·卢·王（ Lucy Lu Wang）称，如果一篇论文已经被用作模型的训练数据，在模型训练完成后就无法将这篇论文移除。

不过，即便能证明论文被用于AI训练，但在法律层面仍然面临争议。文中指出，出版商认为，使用未经授权的受版权保护内容进行训练是侵权行为；而另一种法律观点则认为，大语言模型并未直接复制内容，而是通过学习来生成新文本。

值得注意的是，并非所有研究者都反对将他们的作品用于AI训练。斯特凡·巴克表示，他很乐于看到自己的研究成果被用来提高AI的准确性，并且不介意AI“模仿”自己的写作风格。然而，他也承认，并非所有人都能轻松应对这一问题，尤其是那些面临AI竞争压力的职业，如艺术家和作家。

事实上，关于使用受版权保护的知识作品来训练 AI 模型的诉讼案件此前已引起过广泛关注。

8月14日，《华盛顿邮报》报道，美国多名视觉艺术家和插画家对AI图像生成工具的集体诉讼案取得突破进展。他们曾指控Midjourney和Stability AI等初创公司在未经同意的情况下使用作品来训练AI模型。这起案件在本周取得了关键性进展。美国地区法官威廉·奥里克允许该案的关键部分继续推进，这意味着法庭已经决定某些指控有足够的法律证据，可以继续审理下去，接下来随着法律审理的过程，可能会披露这些公司在开发AI工具时的内部交流情况。

编辑/范辉