北京青年报
YouTube视频被OpenAI用来训练大模型?CEO称暂无证据,但此举违规
澎湃新闻 2024-04-07 17:25

人工智能头部企业OpenAI可以使用哪些数据来训练模型,再次引发公开争论。

当地时间4月5日,视频网站YouTube首席执行官尼尔·莫汉(Neal Mohan)在采访中表示,他并没有直接证据能够证明OpenAI确实使用了YouTube的视频来完善其文生视频AI工具Sora,如果真的使用了,那就“明显违反”了YouTube平台的使用条款。

莫汉表示:“从创作者的角度来看,当创作者将他们的辛勤劳动上传到我们的平台时,他们有一定的期望。其中之一就是符合YouTube的服务条款,不允许下载文字或视频片段等内容。这(OpenAI使用YouTube视频)明显违反了我们的服务条款。”

此外,莫汉还在采访中提到,谷歌确实使用了YouTube上的一些内容训练旗下大模型Gemini,但在使用这些内容之前,已经得到了创作者的授权,并遵循了YouTube与创作者之间的合同。

近日,《纽约时报》报道,OpenAI和谷歌涉嫌使用YouTube视频的转录文本来训练其人工智能模型,这一行为可能侵犯了YouTube创作者的版权。报道称,OpenAI通过使用其Whisper语音识别工具,转录了超过一百万小时的YouTube视频内容,并将这些数据用于训练模型。

OpenAI的Sora是一种文生视频工具,能够一次生成整个视频或扩展生成的视频以使其更长。和其他生成式AI工具的工作原理一样,Sora也是从网络上吸收各种内容,并使用这些数据作为生成新内容的基础,包括视频、照片、叙述文本等。

AI的强大功能建立在大量数据训练的基础之上,随着OpenAI、谷歌和其他公司竞相开发更强大的AI工具,他们正在寻求越来越多的数据来训练模型,以生成更好的结果。

但这已经引发了人们对数据来源、用途的质疑。此前,OpenAI因其训练模型的内容来源而被《纽约时报》以及一些出版社和作者起诉。

今年1月,《纽约时报》在纽约南区法院向OpenAI及其投资人微软公司提起侵犯版权诉讼,指控二者未经许可使用其数百万篇文章以训练人工智能模型,而这些聊天机器人现在与该新闻机构形成竞争,成为可靠的信息来源。

诉讼称,被告应对与“非法复制和使用《纽约时报》独特有价值的作品”相关的“数十亿美元的法定和实际损害”负责,还要求其销毁使用《纽约时报》版权材料的所有AI模型和训练数据。

随后OpenAI回应称,《纽约时报》的诉讼毫无根据,但仍然希望与其建立建设性的合作伙伴关系。

此外,据外媒报道,今年3月,OpenAI首席技术官Mira Murati在接受采访时还曾对Sora的训练数据来源含糊其辞。

当被追问具体来源是否包含YouTube的视频时,Murati回复“我实际上并不确定”,并拒绝回答有关Instagram或Facebook视频是否被纳入训练集的问题。她辩称,如果这些视频是公开可用且可以使用的,那么可能会被使用,但她本人对此并不确定。(澎湃新闻记者 吴遇利)

编辑/田野

最新评论