《纽约时报》起诉OpenAI,走向如何
光明网 2024-01-16 10:45

《纽约时报》半个月前以侵犯版权为由起诉OpenAI和微软,称其发布的数百万篇文章被用于训练两家公司旗下的自动聊天机器人,认为其违反了版权法,正在破坏对具有独特价值新闻的版权保护,应为“价值数十亿美元的法定和实际损失”负责。OpenAI则于日前首次发布回应称,使用公开的互联网材料训练人工智能模型是合理的,OpenAI已提供了退出的选择。并暗示,《纽约时报》在诉讼中所展示的人工智能“抄袭”原文的情况,是报纸方故意操纵提示词,包括使用冗长的文章摘要,以便让模型反刍的结果。

站在新旧世界的分界线上,双方都各有价值合法性的支撑。《纽约时报》提供了100多个ChatGPT输出内容和其报道文章高度相似的例子,如果在原有媒介的结构与伦理之下看待这些“抄袭”,后者肯定是不可容忍的,既是对版权的侵犯,也影响了有价值新闻的产生生态,破坏了现代新闻伦理确定的基本逻辑。《纽约时报》自知这场官司将具有一种巨大象征意义,因此提出,希望法院将OpenAI与其他作家之间的侵权纠纷,与自己的案件进行合并审理,以增加这场诉讼的对垒分量。

OpenAI和微软则认为,包括《纽约时报》在内的单一数据源无论有没有,都不会对大模型的表现造成重要影响(事实上也确实如此),况且《纽约时报》可以选择退出模式。大模型的训练,是一种学习模式,学习后的表达,其机制和抄袭有根本不同,就像你不能因为阅读海明威的作品、学习了简短有力的文风,就向他付版权费一样。大模型出现“反刍”现象,输出和训练数据一模一样的内容,只能是提问者用长提示词反复操作的结果。

围绕诉讼产生争论展现了一个基本定义上的分野。人工智能公司是在“类人”“新人”这样的维度上看待大模型的,它的学习和训练过程应该按照人的成长机制理解,即,学习公开资料、获取知识储备、在与被服务者的互动中发展提升、输出“平生所学”。这个过程不但没有“抄袭”这个概念,甚至与版权法所辖领域无关。而《纽约时报》,是在新型技术媒介的意义上看待大模型的,就像电视是对纸媒的迭代,大模型也只是一个新迭代的技术媒介。

一个背景或许可以参考。《纽约时报》的数字部门大概从十年前就开始研发、使用自己的写稿机器人、编辑机器人,后者曾每天推送数百篇文章,财经、赛事、地震等模式性较强的新闻。一般具有深厚历史的传统媒体进行数字研发,无论其起步多早、数字嗅觉多么敏锐,也会倾向于将新事物看成与我同构的东西,而不是对我所在世界基本逻辑的颠覆。也许这些早期AI使用的经验,反而使《纽约时报》更确证OpenAI破坏了可靠信息源的媒介法则,是与“新闻机构展开了直接竞争”。

无论怎样,《纽约时报》已成为第一家起诉这两家公司侵犯其文字作品版权的美国大型媒体。其诉讼结果,不但会决定大模型公司是否要为其数据来源付天价,还会决定上述对人工智能的定义到底哪个才会获得法律意义的确定。关于诉讼的胜负的预测目前见仁见智,但几年前的另一个公案或许可以提供参考——

2021年初,澳大利亚政府立法要求脸书向澳大利亚纸媒进行新闻付费,因为社交媒介使用了传统媒体的内容、又抢走了传统媒体的广告费。脸书的反制是,宣布不再允许澳大利亚人用脸书分享新闻链接。最终事件以澳大利亚政府修改法案告一段落。澳大利亚政府做出“退一步”的决定,距脸书“拉黑”澳大利亚的举措只有五天。

文/光明网评论员

图源/视觉中国

编辑/王涵

相关阅读
13家媒体怒告OpenAl等AI巨头背后:“合理使用”or“偷窃”?
每日经济新闻 2024-07-08
2.5亿美元 !OpenAI打包新闻集团5年版权,用于大模型训练及问答
澎湃新闻 2024-05-23
英国《金融时报》与OpenAI达成协议 授权后者使用其资料库训练AI模型
财联社 2024-05-03
YouTube视频被OpenAI用来训练大模型?CEO称暂无证据,但此举违规
澎湃新闻 2024-04-07
谷歌因违规收集训练数据领2.5亿欧元罚单,数据版权问题再引争议
澎湃新闻 2024-03-24
美国OpenAI首席技术官:不确定是否使用了社交媒体数据训练Sora
央视新闻客户端 2024-03-17
OpenAI被曝计划在一个月内任命多位新董事会成员
澎湃新闻 2024-03-01
OpenAI反击纽约时报侵权诉讼:操纵证据还雇黑客黑入系统
澎湃新闻 2024-02-28
最新评论