1. 项目概述:当我们在谈论AI时,我们在谈论什么?

最近几年,大语言模型(LLM)无疑是科技领域最耀眼的明星。从能写诗作画的ChatGPT,到能编程解题的Claude,再到国内层出不穷的各类“智能助手”,它们展现出的能力常常让我们惊叹。媒体头条充斥着“AI革命”、“生产力跃迁”、“智能涌现”等宏大叙事,仿佛我们正站在一个全新纪元的门槛上。然而,作为一名在科技行业摸爬滚打了十多年的从业者,我越来越意识到,在这些光鲜亮丽的模型演示和激动人心的商业故事背后,存在着一个被系统性忽视的角落——那些为这些“智能”提供养分的、真实的人。

这个项目,或者说这篇分享,我想探讨的正是这个被遮蔽的议题:“The Untold Worker Exploitation Behind Large Language Models”——大语言模型背后未被言说的劳工剥削。这不是一个技术实现教程,而是一次对技术产业链的深度审视。我们常常关注模型的参数量、训练成本、推理速度,却很少追问:用来训练和评估模型的、海量的、高质量的文本数据从何而来?是谁在标注那些让模型学会“理解”和“判断”的指令数据?又是谁在日复一日地审核模型输出,过滤掉有害内容,确保它“安全”且“有用”?

答案往往指向全球各地,尤其是发展中国家,数以万计的“数据标注员”、“内容审核员”和“AI训练师”。他们的工作,是AI智能得以实现的基石,但他们的处境、待遇和所承受的心理压力,却鲜少进入主流技术讨论的视野。今天,我想抛开那些炫酷的演示,和大家一起拆解这条隐藏在代码与算法背后的“人工”供应链,看看当我们为AI的每一次进步欢呼时,究竟是谁在承担真实的成本。无论你是开发者、产品经理、研究者,还是仅仅对技术社会影响感兴趣的读者,理解这一点,对于我们如何负责任地开发和使用这项技术都至关重要。

2. 智能的基石:拆解LLM训练中的数据劳工链条

要理解劳工问题,首先得明白现代大语言模型是如何被“喂养”和“教育”出来的。这个过程远非简单的“投喂数据,自动学习”那么简单,其中包含了大量高度依赖人力的、重复性的、且时常令人不适的劳动。

2.1 数据供应链的起点:原始数据采集与清洗

任何模型的起点都是数据。互联网上的公开文本、书籍、代码、论坛对话构成了原始的语料库。但网络数据鱼龙混杂,充斥着垃圾信息、重复内容、偏见和错误。因此,第一步就需要进行数据清洗。这听起来像是一个自动化过程,但实际上,许多关键决策需要人工判断。

例如,如何定义“低质量内容”?一个涉及敏感社会议题的讨论帖,是应该保留以增加模型观点的多样性,还是应该删除以避免潜在风险?一段包含粗俗语言的市井对话,是否具有语言学价值?这些边界模糊的判断,往往被外包给薪酬低廉的劳工。他们需要在极短的时间内,根据不断变化的、可能自相矛盾的审核指南,对数以百万计的文本片段做出“保留”或“删除”的决定。这份工作不仅枯燥,而且因为持续暴露在互联网最阴暗的角落(如仇恨言论、暴力描述),对心理的损耗极大。

注意 :许多科技公司会将这类内容审核工作外包给第三方服务商,这些服务商通常在劳动力成本较低的地区运营。这形成了一道“责任防火墙”,让最终的产品公司得以远离这些劳动过程中产生的具体伦理问题。

2.2 模型“价值观”的塑造:指令微调与对齐标注

如果说预训练赋予了模型“知识”,那么指令微调和对齐(Alignment)则塑造了它的“性格”和“价值观”,使其能够遵循指令、提供有帮助且无害的回答。这是目前劳动最密集、也最关键的环节。

1. 指令数据创建: 模型需要学习“什么是好的回答”。这需要人工编写大量的“指令-输入-输出”三元组。例如,给定指令“用莎士比亚的风格写一首关于咖啡的诗”,标注员需要创作出相应的诗句。这项工作要求标注员具备良好的语言能力和一定的创造力,但报酬往往与创作价值不匹配。为了追求效率,平台可能会设定严苛的计件工资和每日配额,导致标注员在压力下生产出机械、缺乏灵感的示例,反而限制了模型的天花板。

2. 偏好对齐标注: 这是目前最主流的对齐方法,如基于人类反馈的强化学习(RLHF)。其核心是让标注员对同一个问题的多个模型回答进行排序,判断哪个“更好”。什么是“更好”?标准可能包括:更有帮助、更真实、更无害、更详细、更符合特定格式等。

这里存在巨大的主观性和文化差异。一个在美国标注员看来“幽默”的回答,在另一个文化背景的标注员看来可能是“冒犯”。为了统一标准,公司会提供详尽的标注指南,有时长达上百页。标注员需要消化这些复杂规则,并在几秒内对回答做出评判。我接触过的一些从业者透露,他们经常陷入规则冲突的困境,例如,一个回答既详细(符合“有帮助”标准)又包含了未经证实的信息(违反“真实”标准),该如何权衡?他们的每一次点击,都在直接为模型的“道德指南针”进行微调,责任重大,但决策支持却很少。

3. 红队测试与对抗性数据生成: 为了让模型更“安全”,需要主动攻击它,试图诱导其产生有害输出。这就是红队测试。标注员需要扮演“坏人”,绞尽脑汁设计各种刁钻、恶意、违反政策的问题,例如如何制作危险物品、如何进行欺诈、如何生成歧视性内容等。他们需要持续沉浸在这种负面、甚至邪恶的思维模式中,对心理健康的影响不言而喻。然而,这类工作的心理支持资源通常非常匮乏。

2.3 持续迭代的循环:评估与迭代标注

模型上线后,工作远未结束。用户与模型的真实交互数据被收集回来,用于持续评估和迭代。标注员需要评估这些真实对话的质量,标记出模型的错误、偏见或有害输出。这些数据又被用于下一轮的模型训练。

这就形成了一个闭环:人类标注员训练和修正模型 -> 模型服务用户 -> 用户数据由人类标注员评估 -> 评估数据再次用于训练模型。在这个循环中,标注员的劳动被持续地、不可逆地“溶解”到模型的权重中,成为其智能的一部分,但标注员本人却无法从模型的商业成功中获得相应的回报增值,他们获得的只是一次性的、按件计费的报酬。

3. 全球血汗工厂:劳工现状与系统性困境

理解了工作内容,我们再来看看是谁在做这些工作,以及他们的工作环境如何。这幅图景与我们想象中的高科技产业相去甚远,更像是一种数字时代的“血汗工厂”。

3.1 劳动力地理分布与薪酬结构

大量的数据标注工作通过众包平台(如Amazon Mechanical Turk, Scale AI, Appen, Samasource等)分发出去。这些平台将任务拆解成极小的单元(如标注一张图片中的物体、判断一段文本的情感、排序两个回答),分发给全球的“零工”。其中,相当大的比例流向了肯尼亚、菲律宾、印度、委内瑞拉等劳动力成本低廉的国家和地区。

以RLHF标注为例,根据一些调查报告,在肯尼亚,为美国某顶尖AI公司进行文本标注的工人,时薪可能低至1.5-2美元,远低于当地生活工资水平。他们通常按任务计酬,完成一个比较回答优劣的任务可能仅获得0.1-0.2美元。为了赚取足以维生的日薪,工人必须保持极高的强度和专注度,每天处理数百甚至上千个任务。这种计件模式将所有的效率压力和健康风险都转嫁给了工人。

3.2 工作环境的隐形剥削

1. 心理创伤与缺乏支持: 对于内容审核和红队测试人员,长期暴露于暴力、色情、仇恨和虐待性内容,可能导致创伤后应激障碍(PTSD)、焦虑和抑郁。尽管一些大公司开始为正式员工提供心理咨询服务,但对于外包和众包工人,这类支持几乎不存在。他们被期望像机器一样处理这些有毒信息,然后自己消化情绪创伤。

2. 算法管理与不透明性: 工人们通常通过算法管理的平台接活。他们的工作质量、速度被实时监控和评分。一个错误率稍高,或者速度稍慢,就可能导致账号被降权、任务减少甚至封禁。然而,评分标准往往不透明,申诉渠道匮乏。他们是在为一个“黑箱”系统工作,而这个系统的规则他们无权知晓也无法挑战。

3. 技能剥离与职业发展困境: 这些工作被高度拆解和标准化,不需要工人具备完整的技能。一个文学毕业生可能每天都在进行简单的文本分类,其创造力和批判性思维无从施展。这份工作不能带来有市场竞争力的技能积累,职业发展路径模糊,本质上是一种“数字流水线”作业。

4. 就业保障缺失: 绝大多数数据劳工是临时工、合同工或众包自由职业者,没有劳动合同、没有医疗保险、没有带薪假期、没有失业保险。他们的收入极不稳定,随着项目需求波动而大起大落。AI产业的繁荣与萧条,直接而剧烈地冲击着他们脆弱的生活。

3.3 权力结构的不平等

整个链条中存在明显的权力不对等。顶端是掌握资本、技术和市场的科技巨头,底端是分散的、原子化的全球劳工。中间是众包平台和外包公司,它们通过管理算法和严苛的合同,最大化地压榨劳动力成本,同时将伦理和法律责任隔离开来。工人们没有集体谈判的能力,甚至彼此都不认识。他们面对的不是一个具体的“雇主”,而是一个由代码、协议和跨国资本构成的庞大系统。

4. 技术迷思与责任逃避:行业为何对此视而不见?

面对如此明显的困境,为什么整个AI行业在公开讨论中却对此轻描淡写,甚至集体失声?这背后有一套根深蒂固的技术迷思和叙事策略。

4.1 “自动化即将到来”的迷思

最常听到的辩解是:“这只是暂时的,随着AI技术的进步,这些工作很快就会被AI自动完成。” 这种论调将当前的剥削合理化,视为通向全自动美好未来的必要阵痛。它让从业者心安理得,也让外界认为问题会自行解决。

但现实是, “对齐”本质上是一个需要人类价值判断的递归问题 。我们训练AI来模仿人类的判断,以减轻人类的标注负担,但评估AI判断好坏的“金标准”,最终仍然需要人类。至少在可预见的未来,涉及伦理、安全、文化敏感性和创造性等高阶认知的任务,很难完全脱离人类的监督和介入。所谓的“全自动化”,可能永远是一个移动的目标,一个用来正当化当下剥削的借口。

4.2 “众包即自由”的叙事

平台经济喜欢将众包包装为“灵活”、“自由”、“赋能”的工作方式,宣称劳动者可以随时随地工作,掌握自己的时间。这掩盖了其本质:将雇佣关系转化为商业合同关系,从而规避了劳动法规定的雇主责任(如最低工资、工时限制、社保福利、工作环境安全等)。对于许多生活在就业机会匮乏地区的劳动者来说,这不是“自由的选择”,而是“唯一的生存选择”。

4.3 技术的“去身体化”想象

我们在谈论AI时,常常使用一种抽象、纯粹的语言:“模型”、“算法”、“参数”、“损失函数”。这种话语将技术描绘成一个在云端自主运行的、洁净的智力过程,完全抹去了其物质基础——消耗巨大能源的数据中心、开采稀土矿物制造的硬件,以及最关键的,进行着重复性体力与脑力劳动的人类身体。这种“去身体化”的想象,让我们轻易忘记了技术产业链末端的血肉之躯。

4.4 复杂的供应链与责任稀释

如前所述,通过多层外包和众包,科技巨头得以构建一条漫长而复杂的供应链。最终产品公司(如发布ChatGPT的公司)可以与具体的数据标注工作保持距离。当问题被曝光时,他们可以将责任推给外包商,而外包商又可以推给平台,平台则归咎于个体工人的“表现”。责任在整个链条中被稀释和转移,使得系统性改革难以推动。

5. 可能的路径:作为从业者,我们可以思考什么?

指出问题是为了寻找解决方案。虽然这是一个结构性的全球难题,但作为AI生态系统的参与者——无论是研究者、工程师、产品经理还是投资者——我们并非无能为力。以下是一些可以思考和推动的方向。

5.1 推动透明度与可追溯性

1. 数据履历(Data Provenance): 我们可以倡导和要求对训练数据,特别是用于对齐的标注数据,建立更清晰的履历。这包括数据来源、标注者所在地域、薪酬水平、工作条件等元信息。类似于“公平贸易”认证,未来或许可以出现“伦理数据”认证,让消费者和开发者知道他们使用的模型是基于何种劳动条件下产生的数据训练的。

2. 算法管理透明化: 向为平台工作的数据劳工公开算法管理的核心规则、评分标准和申诉机制。确保工人在被算法评价乃至处罚时,拥有知情权和异议权。

5.2 改善劳工待遇与支持体系

1. 保证生活工资: 无论是直接雇佣还是通过合作伙伴,确保所有为数据工作付出劳动的人都能获得不低于当地生活工资的报酬。这需要重新计算任务定价模型,将公平薪酬作为核心成本纳入考量。

2. 提供心理健康支持: 对于从事内容审核、红队测试等高压工作的劳动者,必须强制性地、免费地提供专业的、持续的心理健康服务,并将其视为必要的劳动保护措施,而非福利。

3. 探索新型雇佣关系: 探索介于全职雇佣和零工之间的中间形态,为长期合作的标注员提供更稳定的收入预期和一定的福利保障。例如,签订长期服务合同,约定保底工时和薪酬。

5.3 技术创新服务于劳工福祉

技术本身也可以成为解决方案的一部分,但方向不是取代人工,而是赋能和辅助人工。

1. 开发更好的辅助工具: 开发能减轻标注员认知负荷、提升效率的工具。例如,更智能的预标注系统、能自动识别并过滤掉极端有害内容的屏蔽工具、更符合人机工程学的交互界面。

2. 研究需要更少标注数据的方法: 从算法层面,继续研究小样本学习、自监督学习、基于AI反馈的强化学习(RLAIF)等技术,减少对大规模、高质量人工标注数据的依赖。但这并不意味着完全取消人工,而是将人类智慧用在更关键、更需要创造性和判断力的环节。

5.4 伦理纳入技术开发全流程

将劳工伦理作为AI伦理评估的核心维度之一。在模型开发初期,就进行“劳工影响评估”,就像进行环境影响评估一样。问自己:训练这个模型需要多少人工标注?这些工作可能在哪里、由谁来完成?我们如何确保他们的权利?将这些问题作为产品设计和技术选型的硬性约束条件。

5.5 集体行动与行业标准

个人的力量是有限的,需要行业集体的行动。

1. 建立行业联盟与标准: 领先的AI公司、学术机构、非政府组织可以联合起来,制定关于AI数据劳动伦理的行业标准或最佳实践指南,并建立独立的审计机制。

2. 支持劳工组织: 关注并支持全球范围内为数据劳工争取权益的组织和运动。尽管零工经济下的组织化非常困难,但这是改变权力不平衡的根本途径之一。

我个人的体会是,技术的进步不应以一部分人的隐形牺牲为代价。我们构建的智能,如果其基石是沉默的痛苦和不公,那么这种智能本身就是有缺陷的,也无法引领我们走向一个真正更好的未来。每一次我们调用一个API,赞叹一次模型的流畅回答,或许都可以在心底留一个问号:这份智能的背后,站着怎样的人?他们过得怎么样?作为创造者,我们又能做点什么?这些问题没有简单的答案,但开始追问,本身就是改变的第一步。

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐