北京青年报

AI的剥削：肯尼亚工人训练ChatGPT 看大量有害内容心理受伤

北京青年报客户端 2023-01-21 11:24

人工智能（AI）文本生成工具ChatGPT已经引发全球热烈讨论，除了本身的准确性和偏见问题之外，其背后的道德问题也引起关注。1月18日，美国《时代》杂志发布调查报道称，为了降低ChatGPT的危害性，其开发公司OpenAI以每小时不到2美元的价格雇佣肯尼亚工人打标签。

这项工作对OpenAI至关重要。ChatGPT所依赖的GPT大型语言模型虽然已展示出令人印象深刻的文本能力，但目前的GPT-3还存在很多问题，总是脱口而出暴力、性别歧视和种族主义言论。这是因为AI接受了从互联网上抓取的数千亿个单词的训练，而庞大的训练数据集包含有害言论，会被人工智能学习。为了建立安全系统以控制这种危害，OpenAI借鉴了Facebook等社交媒体的做法。

实现这种检测的方式很简单：给人工智能提供有关暴力、仇恨言论和性虐待的例子，检测器就可以学会检测言论危害。将检测器内置到ChatGPT中，就可以在仇恨言论到达用户之前将其过滤掉，还可以帮助从人工智能的训练数据集中清除有害文本。这一切，是通过肯尼亚工人阅读大量仇恨言论并打上数据标签实现的，其中一些员工表示自己已经出现心理问题。

这些数据标签工人的工作条件揭示了科技图景中的黑暗部分：虽然人工智能很有魅力，但它往往依赖于隐藏的人力劳动，具有破坏性和剥削性。

OpenAI的人工智能Dall-E 2生成的一幅画，主题是：“电脑前，非洲工人无穷无尽的工作。”

互联网最黑暗的角落

ChatGPT聊天机器人于去年11月发布，被誉为2022年最令人印象深刻的技术创新之一。这个强大的AI聊天机器人几乎可以生成任何主题的文本，从重写莎士比亚十四行诗，到用5岁孩子都能理解的语言描述复杂数学定理。一周之内，它的用户就超过了100万。今年年初，有媒体报道OpenAI正与投资者进行谈判，以筹集290亿美元的投资，其中包括微软的100亿美元潜在投资。这将使OpenAI成为世界上最有价值的人工智能公司之一。

《时代》的调查报道称，为了获得有关暴力、仇恨言论和性虐待的例子以训练AI，OpenAI从2021年11月开始向肯尼亚的一家外包公司发送了数万条文本。其中大部分文字似乎都是从互联网最黑暗的角落里挖出来的，一些详细描述了性虐待、谋杀、异常性行为等情况。

OpenAI在肯尼亚的外包合作伙伴是Sama公司，这家总部位于旧金山的公司雇佣了肯尼亚、乌干达和印度的工人，为谷歌、Meta和微软等硅谷客户标注数据。Sama标榜自己是一家“有道德的人工智能公司”，并声称已经帮助5万多人摆脱了贫困。

OpenAI的发言人表示：“我们的使命是确保通用人工智能造福全人类，我们努力建立安全有用的人工智能系统，限制偏见和有害内容。分类和过滤有害文本和图像是必要的一步，可以最大限度地减少训练数据中包含的暴力和性内容，并创建可以检测有害内容的工具。”

但Sama公司的肯尼亚工人让人们得以一窥人工智能行业中鲜为人知的状况。该公司代表OpenAI雇佣的数据标签员的实际工资在每小时1.32美元到2美元之间，具体取决于资历和表现。这些工人处于边缘地带，尽管他们的工作为数十亿美元的产业做出了贡献。

OpenAI与Sama签署了3份总价值约20万美元的合同。大约30多名工作人员被分成3个小组，每个小组专注于一个主题。他们每9个小时要阅读和标注150到250段文字。这些片段的范围从100个单词到1000多个单词不等。许多员工表示，这份工作给他们留下了心理创伤。

一位Sama的工作人员表示，在阅读了大量仇恨言论后，他经常出现幻觉。“那是一种折磨。”他说。

Sama的发言人在一份声明中表示，员工有权与“经过专业培训和持有执照的心理健康治疗师”进行个人和团体治疗。这些治疗师随时都可以联系到。

虽然工人有权参加“健康”咨询师的课程，但由于对工作效率的要求很高，部分员工表示这些课程毫无帮助。还有一位员工表示，他要求以一对一的方式与咨询师会面的请求被Sama管理层一再拒绝。

合同规定，OpenAI将为这项工作向Sama支付每小时12.5美元的报酬，这是该项目Sama员工每小时收入的6到9倍。据3名Sama员工透露，最初级的数据标签人员基本工资为每月2.1万肯尼亚先令（合170美元）。

由于工作性质明确，如果达到准确性和速度等关键绩效指标，他们还能获得70美元的奖金。

质量分析师是更资深的标签师，他们的工作是检查代理商的工作，如果他们达到了所有的目标，每小时可以拿2美元。

但对于员工的言论，Sama的发言人在一份声明中反驳道，工人们被要求在每9小时的工作中标注70段文字，而不是250段，工人们的税后工资为每小时1.46美元到3.74美元。该发言人补充说：“12.5美元的项目费率涵盖了所有成本，如基础设施费用，以及工人、专职质量保证分析师和团队负责人的工资和福利。”

OpenAI的发言人在一份声明中也表示：“我们非常重视员工和承包商的心理健康。员工可以选择不做任何工作而不受惩罚，接触露骨的内容是有限制的，敏感信息将由经过专门培训的员工处理。”

“不看有害内容就无法养家糊口”

2022年2月，Sama和OpenAI的关系曾短暂加深，而后却分道扬镳。2月，Sama开始为OpenAI的另一个项目进行试点工作：收集性和暴力图像并交付给OpenAI。OpenAI发言人在一份声明中没有具体说明该公司向Sama寻求图像的目的，但表示标记有害图像是使其人工智能更安全的“必要步骤”。

但在后来的几周内，Sama取消了OpenAI的所有工作，比合同中约定的时间提前了8个月。这家外包公司在一份声明中表示，其为OpenAI收集图像的协议中不包括任何涉及非法内容的内容，直到相关工作开始后，OpenAI才发来“附加指示”，提到了“一些非法类别”。

“东非团队立即向我们的高管提出了担忧。”Sama表示，于是他们立即结束了图像分类试点，并取消了与OpenAI的所有剩余项目。

Sama终止与OpenAI合作的决定意味着Sama员工不再需要处理令人不安的文字和图像，但这也对他们的生计产生了重大影响。Sama的工作人员表示，在2022年2月底，他们被叫去与公司人力资源团队成员开会，在那里他们被告知Sama不想让员工再次接触这样的危险内容。

但Sama一名参与文本标签项目的员工表示：“对我们来说，这是一种养家糊口的方式。不看有害内容就无法养家糊口。”

在大约30多名员工中，大多数人被转移到其他工资较低的工作岗位，每月没有70美元的奖金，还有一些人甚至失去了工作。Sama在3月向OpenAI交付了最后一批标记数据，当时距离合同到期还有8个月。

Sama的员工表示，他们的经理给了他们另一个取消合同的理由。2月14日，《时代》发表了一篇题为《Facebook在非洲的血汗工厂内幕》的文章，调查详细说明了Sama如何为Facebook雇用内容审查员，他们的工作包括查看有关性虐待、暴力、谋杀的图像和视频，且时薪只有1.5美元。4名Sama员工表示，他们被告知，调查促使Sama公司决定结束与OpenAI的合作。

今年1月10日，Sama更进一步，宣布取消所有涉及敏感内容的剩余工作。该公司表示，将不再与Facebook续签价值390万美元的内容审核合同，这将导致内罗毕约200个工作岗位的流失。

该公司在一份声明中表示：“在与我们的全球团队进行了多次讨论后，Sama做出了战略决定，退出所有自然语言处理和内容审核工作，专注于计算机视觉数据注释解决方案。在过去的一年里，我们一直在与客户合作，过渡这些业务，并将于2023年3月完成退出。”

人工智能目前仍需要大量人工来标记数据。人工智能伦理学家安德鲁·斯特雷特（Andrew Strait）最近在推特上写道：“ChatGPT和其他人工智能并不神奇，它们依赖于大规模的人力供应链和数据抓取，其中大部分是未经同意就被使用的。这些都是严重的基础性问题，但我认为OpenAI不会解决这些问题。”

编辑/范辉