学术论文正被高价出售给大模型训练 作者却零收入
澎湃新闻 2024-08-18 13:14

大语言模型(LLM)因训练数据问题再次引发争议。日前,国际著名期刊《自然》(《Nature》)杂志编辑伊丽莎白·吉普尼(Elizabeth Gibney)发布一篇题为《你的论文被用来训练人工智能模型了吗?几乎可以肯定》一文。文中作者表示,当前有越来越多的学术出版商正在将研究论文授权给科技公司,用于训练人工智能(AI)模型。有学术出版商借此赚取了2300万美元,而作者却收入为零。这些交易在很多情况下并未征求作者的意见,引发了部分研究人员的强烈不满。

“如果你的论文还没有被用作AI训练数据,很可能很快就会成为训练的一部分。”伊丽莎白·吉普尼在文中指出,当前学术论文作者在面对出版商出售其版权作品时几乎无权干涉。对于公开发表的文章,也没有现成机制来确认这些内容是否被用作AI训练数据。在大语言模型使用中,如何建立更加公平的机制保护创作者的权益,值得学术界和版权界广泛讨论。

大语言模型(LLM)通常依赖从互联网上抓取的大量数据进行训练。这些数据包括数十亿片段的语言信息(称为“标记”),通过分析这些标记之间的模式,模型得以生成流畅的文本。学术论文因其内容丰富、信息密度高,相比大量普通数据更有价值,是AI训练中的重要数据来源。数据分析师斯特凡·巴克(Stefan Baack)来自全球非营利组织Mozilla基金会,他分析指出,科学论文对大语言模型的训练有很大帮助,尤其是在科学主题上的推理能力方面。正是由于数据的高价值,各大科技公司纷纷斥巨资购买数据集。

该文指出,今年《金融时报》与OpenAI达成协议,将其内容授权给后者;被称为“美国贴吧”的Reddit也与谷歌签署了类似的交易。这些交易体现出版商试图通过合法授权避免自己的内容被AI模型无偿抓取。

文章透露,上月英国的学术出版商Taylor & Francis与微软签署了一项价值1000万美元的协议,允许微软访问其数据以改进AI系统。而在6月,美国出版商Wiley通过向某家公司提供内容用于AI训练,收入高达2300万美元。而这些巨额收入与论文作者没有任何关系。

当前,研究人员正尝试用技术手段帮助作者识别其作品是否被用于AI模型训练。西雅图华盛顿大学的人工智能研究员露西·卢·王( Lucy Lu Wang) 称,如果一篇论文已经被用作模型的训练数据,在模型训练完成后就无法将这篇论文移除。

不过,即便能证明论文被用于AI训练,但在法律层面仍然面临争议。文中指出,出版商认为,使用未经授权的受版权保护内容进行训练是侵权行为;而另一种法律观点则认为,大语言模型并未直接复制内容,而是通过学习来生成新文本。

值得注意的是,并非所有研究者都反对将他们的作品用于AI训练。斯特凡·巴克表示,他很乐于看到自己的研究成果被用来提高AI的准确性,并且不介意AI“模仿”自己的写作风格。然而,他也承认,并非所有人都能轻松应对这一问题,尤其是那些面临AI竞争压力的职业,如艺术家和作家。

事实上,关于使用受版权保护的知识作品来训练 AI 模型的诉讼案件此前已引起过广泛关注。

8月14日,《华盛顿邮报》报道,美国多名视觉艺术家和插画家对AI图像生成工具的集体诉讼案取得突破进展。他们曾指控Midjourney和Stability AI等初创公司在未经同意的情况下使用作品来训练AI模型。这起案件在本周取得了关键性进展。美国地区法官威廉·奥里克允许该案的关键部分继续推进,这意味着法庭已经决定某些指控有足够的法律证据,可以继续审理下去,接下来随着法律审理的过程,可能会披露这些公司在开发AI工具时的内部交流情况。

编辑/范辉

最新评论