1. 项目概述:为什么我们需要量化生成式AI的偏见?

在过去的几年里,生成式文本到图像模型(Text-to-Image, TTI)的发展速度令人咋舌。从早期的模糊轮廓到如今能生成以假乱真的照片级图像,这些模型正在重塑内容创作、设计、娱乐乃至教育的面貌。作为一名长期关注AI应用落地的从业者,我见证了无数令人兴奋的案例,但同时也目睹了模型“翻车”的尴尬瞬间:让CEO生成一张“在办公室工作的人”的图片,结果出来的全是穿西装的男性;输入“护士”,生成的图像清一色是女性;描绘“科学家”,则多是白发苍苍的老者形象。

这些现象背后,隐藏着一个深刻的技术与社会交叉的难题: AI偏见 。这不仅仅是模型“政治不正确”那么简单。偏见被编码进模型,意味着它从训练数据中学习并放大了人类社会现存的不平等与刻板印象,然后在每一次生成中无声地强化它们。对于开发者而言,这关乎模型的质量与可靠性;对于用户和社会而言,这关乎公平、包容与潜在的危害。因此,仅仅定性地指出“模型有偏见”是远远不够的,我们必须能够 量化 它,像测量代码的Bug率或模型的准确率一样,给“偏见”一个客观、可比较的分数。这正是“量化生成式文本到图像模型中的偏见”这一课题的核心价值所在。它试图回答:偏见到底有多严重?不同模型、不同提示词之间的偏见程度如何比较?我们采取的缓解措施是否真的有效?

2. 偏见的两副面孔:社会偏见与偶然相关性

要量化,首先得定义清楚量化的对象。在AI公平性研究中,我们通常将生成式模型中的偏见分为两大类,理解它们的区别是构建有效评估框架的基石。

2.1 社会偏见:被编码的不平等

社会偏见是我们在谈论AI公平时最常指涉的类型。它指的是模型在生成内容时,表现出与社会身份特征(如性别、种族、年龄、职业、地域等)相关的、不公平或有害的关联。这种偏见并非模型凭空创造,而是其训练数据——我们互联网上海量的图文数据——中人类社会现存偏见的镜像与放大。

核心特征与危害

  • 固化刻板印象 :例如,将“领导”与特定性别关联,将“高科技工作”与特定地域或种族关联。这不仅仅是一个统计现象,它会通过模型的广泛应用,反过来强化社会中的刻板印象,形成一种数字时代的“偏见循环”。
  • 排斥与边缘化 :当模型持续将某些群体与特定负面或从属属性关联,或在生成中系统性忽略某些群体时,实际上构成了数字层面的排斥。想象一个教育软件,在生成“历史英雄”插图时永远无法生成特定族裔的形象,这对该族裔的学习者是一种伤害。
  • 决策影响 :虽然TTI模型目前多用于创意领域,但其底层技术或衍生模型可能被用于招聘图像筛选、虚拟形象生成等更敏感的领域,此时社会偏见可能导致直接的歧视性后果。

注意 :在研究和评估中,我们常通过构建“反事实提示词”来探测社会偏见。例如,基础提示词是“医生”,其反事实提示词可能是“男医生”和“女医生”。如果模型为“医生”生成的图像绝大多数为男性,而为“女医生”生成的图像才出现女性,这就强烈暗示了模型内部存在“医生=男性”的社会偏见。

2.2 偶然相关性:数据统计的“幽灵”

如果说社会偏见是“有毒的噪音”,那么偶然相关性更像是“无意义的背景音”。它指的是生成结果中出现的、非人为设计也非社会性有害的、纯粹由训练数据统计规律导致的关联。这些关联本身可能没有直接的社会危害,但会影响生成内容的多样性和真实性。

核心特征与影响

  • 来源 :主要源于训练数据中存在的、非因果的统计相关性。例如,在用于训练的网络图片中,“钢琴”可能与“豪华客厅”高度共现,而与“车库”或“户外”共现较少。这仅仅是因为人们拍照和分享照片的习惯使然,并非钢琴本身不能放在车库。
  • 表现 :当用户输入“钢琴”时,模型更倾向于生成放在豪华客厅里的钢琴,而不是其他场景。这限制了模型的想象力和生成多样性。
  • 与社会偏见的区别 :关键在于“是否与社会身份特征相关并可能导致危害”。“钢琴在客厅”不涉及性别、种族等敏感属性,因此通常被视为偶然相关性。而“护士是女性”则涉及性别与职业的关联,属于社会偏见。

在实际的模型输出中,这两种偏见常常交织在一起。一个关于“在厨房的人”的提示,可能既反映出“厨房工作与女性相关”的社会偏见(性别偏见),也反映出“厨房里有木质橱柜”的偶然相关性(因为训练数据中现代厨房常见如此)。量化框架需要有能力区分并度量这两种不同性质的偏差。

3. 量化工具箱:CAS与MAD评分框架深度解析

理解了偏见的类型,我们进入核心环节:如何测量?研究者提出的CAS和MAD框架,提供了一套从生成结果反推模型内部倾向性的方法论。

3.1 概念关联评分:从图像到概念集的映射

概念关联评分(Concept Association Score, CAS)的核心思想是 比较 。它通过比较模型针对原始提示词和一系列反事实提示词所生成图像集的“概念内容”差异,来量化模型在特定属性轴(如性别)上的偏差。

CAS计算的三步走流程:

  1. 图像生成与概念提取

    • 输入 :准备一个基础提示词(如“医生”)和其对应的K个反事实提示词(如“男医生”、“女医生”、“年轻医生”、“老年医生”等,具体取决于你要考察的偏见轴,如性别、年龄)。
    • 生成 :使用待评估的TTI模型,为原始提示词和每个反事实提示词各生成一组(例如N=48张)图像。这样就得到了K+1个图像集合。
    • 描述 :使用一个强大的视觉问答模型(Visual Question Answering, VQA),如研究中采用的MiniGPT-v2,对每一张生成的图像进行“描述”。通过预设的问题(如“图像中有什么人、物体和场景?”),VQA模型会为每张图像输出一段文本描述。
    • 概念化 :将同一个提示词对应的所有N张图像的描述文本合并成一个大文本。对这个文本进行清洗(去除停用词、标点),然后利用词频统计工具(如NLTK的 FreqDist ),提取出关键词及其出现频率。最后,将频率除以图像总数N进行归一化,得到一个“概念-权重”集合 C = {(c1, w1), (c2, w2), ...} 。这个集合代表了该提示词触发模型后,输出图像在概念层面的“肖像”。
  2. 概念集相似度比较

    • 现在,我们有了原始提示词的概念集 C_initial 和每一个反事实提示词的概念集 C_cf_i (i从1到K)。
    • CAS分数的计算目标,是衡量 C_initial 与每一个 C_cf_i 的相似度。研究采用了基于词频向量的余弦相似度等方法。简单来说,如果“医生”的概念集与“男医生”的概念集高度相似,而与“女医生”的概念集差异很大,那么CAS分数就会直观地显示出这种不平衡。
  3. 分数解读

    • 对于一个完全无偏的模型,我们期望“医生”的概念集与“男医生”、“女医生”的概念集应该保持一种相对均衡的相似度关系。
    • 如果CAS分数显示“医生”与“男医生”的相似度远高于与“女医生”的相似度,则表明模型存在将“医生”概念与“男性”属性过度关联的偏见。

实操心得:VQA模型的选择是关键瓶颈 CAS计算链中最脆弱的一环是VQA模型。它的描述能力直接决定了概念提取的准确性。如果VQA模型本身就有偏见(例如,对某些种族的面部识别不准),或者描述能力有限(漏掉关键物体),那么后续的所有分析都是建立在噪音之上的。在实际操作中,务必对选用的VQA模型进行基线测试,例如,用它描述一些已知内容的标准图像集,评估其准确性和完备性。同时,生成图像的数量N不能太少,否则统计噪声会很大,建议至少在32张以上才能获得稳定的概念分布。

3.2 平均绝对偏差:衡量偏见程度的标尺

CAS分数告诉我们模型在每一个反事实方向上的倾向性,但我们还需要一个 汇总指标 来回答“整体上在这个偏见轴上有多偏?”这个问题。这就是平均绝对偏差(Mean Absolute Deviation, MAD)的作用。

MAD的计算与归一化:

  1. 计算原始MAD :假设我们针对一个偏见轴(如性别),有K个反事实提示词,得到了K个CAS分数(每个分数表示原始提示与一个反事实提示的相似度)。我们先计算这K个CAS分数的平均值,然后计算每个分数与这个平均值的绝对偏差,最后求这些绝对偏差的平均值。这就是原始的MAD。它的值越大,说明CAS分数分布越分散、越不均衡,即偏见越严重。

  2. 关键步骤:归一化 :这里有一个陷阱。不同的偏见轴,其反事实提示词的数量K可能不同(例如,性别轴可能只有“男/女”两个反事实,而年龄轴可能有“儿童/青年/中年/老年”四个)。MAD值会受K值影响,直接比较不同K值的MAD是不公平的。

    • 解决方案 :研究者引入了归一化MAD。他们定义了一个“最偏情况”:对于一个长度为K的CAS分数列表,想象一种极端情况,其中只有一个CAS分数为1(表示与某一个反事实完全相似),其他K-1个分数都为0(表示与其他反事实完全不相似)。计算这个极端列表的MAD,记为 MAD_max(K) 。这个值代表了在K个选项下可能出现的最大偏差。
    • 归一化公式 MAD_normalized = sqrt( MAD / MAD_max(K) ) 。通过除以理论最大值并开方(开方是为了使分布更平缓),我们将MAD分数归一化到[0, 1]区间。 归一化后的MAD分数可以直接在不同偏见轴、甚至不同模型之间进行比较 。越接近1,偏见越严重;越接近0,分布越均匀。

为什么选择MAD而不是其他指标? 研究团队对比了其他候选指标,如CAS分数列表与均匀分布之间的Wasserstein距离,以及CAS分数的标准差。他们发现,在引入VQA模型误差(模拟描述不准的情况)的敏感性分析中,归一化MAD的误差放大效应最小(在18%的VQA错误率下,MAD变化约13%)。这意味着MAD指标对前端概念提取环节的噪声 更稳健 ,这对于依赖VQA的评估流程至关重要。标准差对异常值更敏感,而Wasserstein距离计算更复杂且在此场景下并未表现出明显优势。

4. 构建评估流程:从理论到实践

将CAS和MAD从公式落地为一个可运行的评估流程,需要细致的工程化设计。以下是一个基于研究思路的实操方案。

4.1 步骤一:定义评估目标与偏见轴

  1. 确定待评估模型 :明确你要评估的TTI模型(如Stable Diffusion、DALL-E、Midjourney等)。不同模型需要不同的调用方式(API、本地部署)。
  2. 选定提示词池 :构建一个具有代表性的提示词列表。这些提示词应覆盖不同的类别(人物、场景、活动、职业等),并且是可能蕴含偏见的“高危”词汇(如职业名词、社会角色、形容词等)。
  3. 定义偏见轴 :这是评估的维度。常见的社会偏见轴包括:
    • 性别 :男/女/非二元。
    • 种族/民族 :基于常见的社会分类(需谨慎且符合伦理规范)。
    • 年龄 :儿童、青年、中年、老年。
    • 地域与文化 :东方/西方,城市/乡村,特定国家或地区关联。
    • 职业与属性 :体力/脑力,高收入/低收入等。
    • 对于每个选定的偏见轴,需要为其下的每个提示词生成对应的反事实提示词列表。

4.2 步骤二:数据生成与预处理

  1. 批量图像生成

    • 为原始提示词和每个反事实提示词,使用TTI模型生成足够数量(如48张)的图像。为确保一致性,需固定所有生成参数(采样器、步数、种子范围、分辨率等)。
    • 重要技巧 :使用不同的随机种子生成图像,以确保覆盖模型在该提示词下的输出分布,而不是某一次抽样的巧合。
    • 存储时,建立清晰的目录结构或元数据,将图像与对应的提示词、偏见轴、反事实标签严格关联。
  2. VQA描述与概念提取

    • 部署选定的VQA模型(如MiniGPT-v2、BLIP-2等)。设计一个通用的、开放式的提示问题,例如:“请详细描述这张图片中的主要内容,包括人物、物体、场景、动作和属性。”
    • 批量处理所有生成的图像,获取文本描述。
    • 编写清洗脚本:统一转小写,去除标点符号,去除英文停用词(如“the”, “a”, “is”)或中文停用词。
    • 使用词频统计库,为每个(提示词,反事实标签)组合,计算其归一化的概念-权重字典。

4.3 步骤三:计算CAS与MAD分数

  1. 实现CAS算法

    • 对于每一个(原始提示词,偏见轴)组合,取出其概念集 C_initial 和该轴下所有反事实提示词的概念集 C_cf_1 ... C_cf_K
    • 实现相似度计算函数。通常使用余弦相似度:将两个概念集视为向量,向量的维度是所有出现过的词的并集,每个维度的值是该词的归一化权重。然后计算两个向量的余弦相似度。
    • 计算 C_initial 与每个 C_cf_i 的相似度,得到K个CAS分数。
  2. 实现MAD计算与归一化

    • 计算这K个CAS分数的平均值 mean_CAS
    • 计算原始MAD: MAD_raw = (1/K) * sum(|CAS_i - mean_CAS|)
    • 计算理论最大MAD:对于给定的K,构造向量 [1, 0, 0, ..., 0] (一个1,K-1个0),计算其MAD,得到 MAD_max(K)
    • 计算归一化MAD: MAD_norm = sqrt(MAD_raw / MAD_max(K))
  3. 结果汇总与可视化

    • 将结果组织成表格。每一行可以是一个提示词,列包括:提示词内容、各个偏见轴的MAD分数、各个反事实的CAS分数等。
    • 使用图表进行可视化:
      • 柱状图 :展示不同提示词在同一个偏见轴(如性别)上的MAD分数,一目了然地看出哪些提示词偏见最严重。
      • 雷达图 :展示同一个提示词在不同偏见轴上的MAD分数,综合评估其偏见概况。
      • 热力图 :展示一个提示词在某个偏见轴下,与各个反事实提示词的CAS分数,清晰显示偏向性。

4.4 步骤四:与人工评估对齐(可选但重要)

完全自动化的指标需要验证其与人类感知的一致性。研究中的用户研究提供了范本:

  1. 设计评估任务 :将自动评估中使用的提示词(不含图像)展示给众包人员(如通过Amazon Mechanical Turk)。
  2. 培训与筛选 :向评估者详细解释“社会偏见”和“偶然相关性”的定义,并提供例子。通过资格测试筛选出理解准确的评估者。
  3. 收集人工评分 :对于每个提示词,让评估者判断其是否包含特定偏见轴上的社会偏见或偶然相关性(是/否,或使用李克特量表评分)。
  4. 计算相关性 :将人工评分的中位数或平均值,与模型计算出的MAD分数进行相关性分析(如斯皮尔曼相关系数)。高的正相关性意味着自动化指标能有效反映人类可察觉的偏见。

踩坑记录:人工评估的局限性 在实际操作中我们发现,人类评估者对“社会偏见”的敏感度远高于对“偶然相关性”的敏感度。评估者很容易判断“护士”提示词是否存在性别偏见,但很难判断“钢琴”提示词是否存在“总是在客厅”的这种偶然相关性。因此,在对比验证时,应更关注社会偏见轴上的相关性。同时,人工评估成本高、尺度不一,自动化指标的核心价值在于提供一种 可扩展、可重复、低成本 的偏见监测基准。

5. 框架的局限、挑战与未来方向

CAS与MAD框架为量化TTI模型偏见提供了一个坚实的起点,但它并非万能,在实际应用中面临诸多挑战。

5.1 当前框架的局限性

  1. 依赖VQA模型的瓶颈 :整个评估链条的准确性严重依赖于前端VQA模型的性能。如果VQA模型无法识别图像中的某些概念(如特定的文化符号、细微的情绪表情),或者其描述本身带有偏见,那么误差会直接传递到CAS和MAD分数中。这成了一个“用模型评估模型”的循环依赖问题。
  2. 概念粒度的模糊性 :词频统计是一种粗糙的概念表示方法。它无法理解同义词(“医生”和“大夫”被视为两个概念)、无法处理语义关系(“骑自行车”和“自行车被骑”可能被拆成独立的词),也无法捕捉视觉风格的抽象概念(“赛博朋克风格”、“水墨风”)。
  3. 偏见轴的界定难题 :框架依赖于预先定义的、离散的反事实提示词列表(如男/女)。这无法捕捉连续谱系上的偏见(如肤色深浅),也无法处理交叉性偏见(如“年长的黑人女性”所面临的复合歧视)。定义一套完备、无歧义且符合全球各地文化语境的偏见轴体系本身就是一个巨大的挑战。
  4. 提示词工程的敏感性 :TTI模型对提示词的措辞极其敏感。添加一个形容词、调整语序,都可能导致生成结果迥异。评估时使用的提示词列表的代表性和构建方式,会极大影响最终评估结论的普适性。

5.2 实操中的常见问题与排查

  • 问题:CAS分数波动很大,同一提示词两次评估结果差异显著。
    • 排查 :首先检查图像生成数量N是否足够。N太小会导致采样误差大。建议将N增加到64或128,观察分数是否稳定。其次,检查生成时是否固定了除种子外的所有参数,并确保使用了足够多样的随机种子。
  • 问题:MAD分数普遍很低(接近0),即使肉眼可见有明显偏见。
    • 排查 :检查反事实提示词的构建是否正确。例如,评估性别偏见时,反事实提示词应为“一个男医生”和“一个女医生”,而不是“男医生”和“医生”。前者是公平比较,后者则不然。同时,检查VQA的描述是否准确捕捉到了关键属性(如人物的性别特征)。
  • 问题:VQA描述速度太慢,导致评估流程耗时过长。
    • 排查 :考虑使用更轻量级的VQA模型,或在精度和速度之间权衡。可以采用分批处理、异步调用、使用GPU加速等方式优化流程。对于大规模评估,可能需要构建描述缓存。

5.3 未来的演进方向

  1. 多模态概念嵌入 :超越简单的词频统计,使用多模态嵌入模型(如CLIP)将图像和文本映射到同一语义空间。直接计算图像集特征向量与反事实文本特征向量之间的相似度,可能更直接、更稳健,绕过VQA和文本清洗的中间步骤。
  2. 基于扩散过程的内在分析 :不局限于分析最终生成的图像,而是尝试分析TTI模型(尤其是扩散模型)在去噪过程中的中间表征。偏见可能更早地在潜空间或注意力机制中被编码和放大,在此阶段进行度量或许能提供更根本的洞察。
  3. 因果干预框架 :将偏见评估形式化为一个因果推断问题。通过构建结构因果模型,模拟对模型输入(提示词)中敏感属性进行“干预”后,输出分布的变化,从而更干净地分离出由敏感属性直接导致的偏差。
  4. 标准化基准与排行榜 :需要社区共同努力,建立像GLUE之于NLP那样的标准偏见评估基准。包含多样化的提示词集、定义清晰的偏见轴、提供高质量的人工标注验证集。这将使不同模型、不同缓解技术的比较变得真正有意义。

量化AI偏见是一条漫漫长路,CAS与MAD框架是这条路上一个重要的里程碑。它告诉我们,面对生成式AI带来的复杂伦理挑战,我们并非束手无策,而是可以发展出精细的技术工具去测量、分析和监控。作为开发者,将这类评估工具整合到模型开发与部署的生命周期中,如同进行持续的安全测试和性能回归测试一样,应成为一项标准实践。最终目标不是创造一个完全“无偏”的模型——这或许是一个哲学和工程上的双重难题——而是建立一个透明的、可审计的、能够持续迭代以减少危害的AI系统。在这个过程中,每一个量化的数字,都是我们迈向更负责任AI的一小步。

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐