北京青年报

YouTube视频被OpenAI用来训练大模型？CEO称暂无证据，但此举违规

澎湃新闻 2024-04-07 17:25

人工智能头部企业OpenAI可以使用哪些数据来训练模型，再次引发公开争论。

当地时间4月5日，视频网站YouTube首席执行官尼尔·莫汉（Neal Mohan）在采访中表示，他并没有直接证据能够证明OpenAI确实使用了YouTube的视频来完善其文生视频AI工具Sora，如果真的使用了，那就“明显违反”了YouTube平台的使用条款。

莫汉表示：“从创作者的角度来看，当创作者将他们的辛勤劳动上传到我们的平台时，他们有一定的期望。其中之一就是符合YouTube的服务条款，不允许下载文字或视频片段等内容。这（OpenAI使用YouTube视频）明显违反了我们的服务条款。”

此外，莫汉还在采访中提到，谷歌确实使用了YouTube上的一些内容训练旗下大模型Gemini，但在使用这些内容之前，已经得到了创作者的授权，并遵循了YouTube与创作者之间的合同。

近日，《纽约时报》报道，OpenAI和谷歌涉嫌使用YouTube视频的转录文本来训练其人工智能模型，这一行为可能侵犯了YouTube创作者的版权。报道称，OpenAI通过使用其Whisper语音识别工具，转录了超过一百万小时的YouTube视频内容，并将这些数据用于训练模型。

OpenAI的Sora是一种文生视频工具，能够一次生成整个视频或扩展生成的视频以使其更长。和其他生成式AI工具的工作原理一样，Sora也是从网络上吸收各种内容，并使用这些数据作为生成新内容的基础，包括视频、照片、叙述文本等。

AI的强大功能建立在大量数据训练的基础之上，随着OpenAI、谷歌和其他公司竞相开发更强大的AI工具，他们正在寻求越来越多的数据来训练模型，以生成更好的结果。

但这已经引发了人们对数据来源、用途的质疑。此前，OpenAI因其训练模型的内容来源而被《纽约时报》以及一些出版社和作者起诉。

今年1月，《纽约时报》在纽约南区法院向OpenAI及其投资人微软公司提起侵犯版权诉讼，指控二者未经许可使用其数百万篇文章以训练人工智能模型，而这些聊天机器人现在与该新闻机构形成竞争，成为可靠的信息来源。

诉讼称，被告应对与“非法复制和使用《纽约时报》独特有价值的作品”相关的“数十亿美元的法定和实际损害”负责，还要求其销毁使用《纽约时报》版权材料的所有AI模型和训练数据。

随后OpenAI回应称，《纽约时报》的诉讼毫无根据，但仍然希望与其建立建设性的合作伙伴关系。

此外，据外媒报道，今年3月，OpenAI首席技术官Mira Murati在接受采访时还曾对Sora的训练数据来源含糊其辞。

当被追问具体来源是否包含YouTube的视频时，Murati回复“我实际上并不确定”，并拒绝回答有关Instagram或Facebook视频是否被纳入训练集的问题。她辩称，如果这些视频是公开可用且可以使用的，那么可能会被使用，但她本人对此并不确定。（澎湃新闻记者吴遇利）

编辑/田野