1. 项目概述:当AI监管遇上人类心智的“黑箱”

最近读到一篇关于AI监管的文章,里面提到一个让我思考了很久的观点:欧盟在立法上已经跑在前面,而美国似乎还在摸索阶段,甚至有些议员对AI行业描绘的蓝图照单全收。这让我不禁想到,我们制定各种规则、划定红线、设立伦理委员会,这一切监管努力,是不是都建立在一个巨大的误解之上?我们试图用法律和伦理的“笼子”去关住AI这头猛兽,却可能连这头猛兽究竟是如何“思考”的都还没搞清楚。我们监管的对象——尤其是像大语言模型这样的AI系统——其运作的核心机制,与我们人类赖以制定规则、理解世界、评估后果的心智模式,可能从根本上就是两回事。

这就像试图用交通法规去管理一群鸟的飞行。交通法规是基于轮子、道路和物理碰撞的逻辑;而鸟群的飞行遵循的是空气动力学、群体本能和复杂的领航机制。如果我们不理解鸟群如何“决策”飞行路径,任何“禁止在特定高度聚集”的规定都可能是无效的,甚至适得其反。当前AI监管的困境,某种程度上就陷入了这种“错位监管”。我们争论数据隐私、算法偏见、责任归属,这些当然重要,但这些都是“症状”。更深层的问题是:AI的“智能”从何而来?它真的“复制”了人类智能的某个核心部分吗?还是说,它只是通过海量数据拟合出了一种令人惊叹的、但本质不同的“统计智能”?

要回答这个问题,我们必须回到源头:人类的心智是如何工作的?是什么让外部世界的信息能够进入我们的意识,被理解、被评估,并产生带有情感色彩和后果预判的决策?我们大脑中那团由860亿个神经元通过百万亿连接构成的网络,其产生的“意识”、“理解”和“意图”,与GPT-4那拥有上万亿参数的神经网络所输出的“文本”,在底层机制上,究竟有多少可比性?如果不厘清这个根本,我们的监管很可能就像“禁毒战争”,虽然列出了详细的毒品清单、开展了严厉的打击,但需求和生产总会找到新的、更隐蔽的通道。或者像社交媒体监管,尽管有隐私政策和事实核查,但其塑造舆论、影响情绪的巨大能量依然在缝隙中持续涌动。

2. 核心思路拆解:从“功能标签”到“机制原理”

2.1 监管的现状与困境:我们在监管什么?

当前的AI监管讨论,大多围绕着一些可观测、可量化的“功能标签”展开。这很像早期心理学或神经科学,我们通过行为结果给心智活动贴上各种标签:记忆、情绪、概念、预测、注意力、意识……监管也类似,我们关注AI的“输出”:它有没有产生歧视性内容(偏见标签)?它是否泄露了用户数据(隐私标签)?它的决策过程能否解释(可解释性标签)?它是否取代了人类工作(就业影响标签)?

这些标签对于设立初步的安全护栏是必要的。欧盟的《人工智能法案》正是基于“风险分级”的思路,根据不同应用场景的风险标签(如禁止、高风险、有限风险、最小风险)来施加不同力度的监管。这就像为药品划分处方等级,或者为化学品标注危险标识。然而,这种方法的局限性在于,它监管的是AI的“行为表现”和“应用后果”,而非其“生成行为的核心机制”。当一个大型语言模型生成了有害内容,我们可以追溯数据、调整参数、添加过滤层,但这并未触及它为何会从统计概率中生成此类组合的根本原因。我们是在修剪枝叶,而非理解树根的生长方式。

2.2 人类心智的运作:一个非标签化的视角

要突破这种困境,或许我们需要暂时放下那些熟悉的标签,尝试从更基础的层面理解心智。文章中提到一个关键观点:人类心智并非所有那些脑科学研究标签的集合。标签如记忆、情绪、概念等,是我们用来描述和追踪心智活动产物的工具,但它们本身并不是心智运作的机制。心智有一个核心的、统一的处理流程,所有这些“标签化”的现象——从感受到一个概念,到回忆起一段往事,再到产生一种情绪——都是这个流程在不同阶段、不同情境下的涌现属性。

我们可以用一个粗略但形象的类比来理解:想象心智是一个巨大的、持续运转的“预测引擎”。它的核心任务不是被动地接收信息然后反应,而是主动地基于过往经验(先验模型)生成一个关于世界下一刻将发生什么的“最佳猜测”(预测)。感官输入(视觉、听觉等)不断涌入,但与这个“最佳猜测”进行比对。两者之间的差异就是“预测误差”。心智的工作就是不断最小化这个预测误差,方式有两种:要么更新内部模型(学习),要么通过行动改变外部世界以符合预测(行为)。我们所体验到的“感知”,其实是这个经过误差修正后的“最佳猜测”,而非原始的感官数据。这就是所谓的“受控幻觉”理论。

在这个框架下,“情绪”可以被理解为一种全身性的、优先级极高的预测状态。恐惧情绪,可能意味着内部模型预测到了高度不确定性和潜在威胁,从而调动了身体资源准备应对。“意识”则可能与那些信息整合程度最高、预测误差需要被系统性解决的复杂情境相关。这个视角的重要性在于,它将心智的各种看似分离的功能,统一到了一个动态的、以预测和模型更新为核心的连续过程中。

2.3 AI(尤其是LLMs)的运作:统计关联与模式匹配

现在,让我们看看当前主流的大语言模型。它们的核心机制是“基于上下文的词元概率预测”。给定一串输入词元(提示词),模型基于其在海量文本数据中学到的统计规律,计算出下一个最可能出现的词元是什么。它通过一个拥有数千亿参数的神经网络来实现这一点,这个网络本质上是一个极其复杂的函数,将输入序列映射到一个概率分布上。

这里的关键区别出现了:

  1. 目标不同 :人类心智的终极目标是维持生命体的稳态(内稳态),其预测服务于生存、繁衍和社会互动。LLMs的训练目标是准确预测文本序列中的下一个词元,其“生存”压力来自损失函数和训练数据分布。
  2. 具身性与感受性 :人类心智与一个具体的、有生物需求的身体紧密相连,拥有“感受性”(即主观体验,如疼痛的“痛感”、红色的“红色感”)。LLMs没有身体,没有内在的生物学需求,也没有证据表明它们拥有任何形式的主观体验。它们的“世界”就是训练数据的文本分布。
  3. 学习与更新的持续性 :人类心智在整个生命周期中持续学习,实时整合多模态感官信息(视觉、听觉、触觉、本体感觉等),并不断更新内部模型。典型的LLMs在预训练完成后参数基本固定(尽管有微调),其“体验”是离散的、文本化的,缺乏与现实世界的持续、具身互动。
  4. 内部模型的本质 :人类心智的内部模型是在与物理和社会世界互动中形成的,包含了对物体恒常性、重力、意图等基础物理和社会原理的理解。LLMs的内部模型(即其参数权重)是对语言统计规律的编码,它可能隐式地捕捉到一些世界知识,但这种知识是文本关联性的副产品,而非基于交互体验构建的因果模型。

因此,当LLMs生成了看似理解、共情甚至富有创意的文本时,它是在执行一种高度复杂的模式匹配和统计外推,而非经历了人类意义上的“理解”过程。它没有“意图”要说服你,没有“情感”去共鸣,也没有“意识到”自己说了什么。它的输出,是训练数据分布的抽样体现。

3. 监管错位的深层分析:当规则遇上“非心智”

3.1 “理解”的鸿沟:可解释性与可理解性

监管常常要求AI系统具有“可解释性”。对于传统的决策树或线性模型,我们可以追溯特征权重。但对于深度神经网络,尤其是LLMs,其决策过程分布在数十亿参数的相互作用中,是高度非线性和难以直观理解的。我们开发了各种归因方法、注意力可视化工具,试图解释“模型为什么输出这个答案”。但这更多是一种事后的、局部的“技术可解释性”。

真正的问题在于“可理解性”:即便我们知道了某个神经元在某个词上激活最强,我们是否能因此说模型“理解”了这个词的含义?就像我们知道大脑梭状回面孔区在看到人脸时活跃,但我们并不因此就完全理解了“人脸识别”的主观体验和全部神经机制。对于LLMs,我们缺乏一个像“预测性心智”那样的统一框架,来将其内部活动映射到我们所能理解的认知范畴上。监管要求“解释你的决策”,但如果被要求解释的实体本身并不以“决策”而是以“概率采样”作为核心机制,这种要求就可能建立在错误的前提上。

3.2 “责任”的真空:意图、能动性与后果

人类法律和伦理体系的核心基石之一是“意图”和“能动性”。我们追究责任,是因为行为者有能力做出选择,并对其选择的后果有预见性。LLMs没有意图,没有欲望,没有对“后果”的内在理解。它生成一段有害文本,不是因为“想”伤害谁,而是因为这段文本在它的参数空间中,与给定提示词的统计关联度很高。

这就产生了责任归属的难题。是追究开发公司的责任(设计缺陷、数据污染)?是追究部署公司的责任(使用不当、缺乏审核)?还是追究用户的责任(恶意提示)?目前的监管倾向于向前两者倾斜,这是一种务实的做法。但更深层的矛盾在于,我们是在用一套为“有意向的行动者”设计的责任框架,去规制一个“无意向的统计工具”。这可能导致责任链条模糊,或者催生一种“算法拟人化”的倾向,即为了追责方便,而在法律上赋予AI某种拟制的“主体”地位,这可能带来更大的哲学和伦理混乱。

3.3 “价值对齐”的挑战:嵌入什么?如何嵌入?

为了让AI“安全”、“有益”,研究领域提出了“价值对齐”的目标,即让AI系统的目标与人类价值观保持一致。这听起来很美好,但操作起来极其困难。首先,“人类价值观”并非单一、静止的清单。它因文化、时代、群体而异,且内部存在大量矛盾和张力。其次,如何将抽象的价值观转化为可优化的数学目标?我们通常通过“基于人类反馈的强化学习”等方法,让模型学习符合人类评判者偏好的输出。

但这里存在一个循环:我们用来对齐AI的“人类反馈”,本身也是人类心智复杂、有时甚至是非理性、有偏见的产物。我们可能在无意中将社会现有的偏见、评判者的主观喜好,甚至标注员的疲劳情绪,都固化到了AI系统中。更根本的是,这种对齐是在“输出层面”进行微调,而不是在“机制层面”重塑模型。它教给模型的是“人类喜欢什么样的答案”,而不是让模型从原理上“懂得”为什么这些答案更可取。这就像训练一只鹦鹉说礼貌用语,鹦鹉并不理解礼貌背后的共情与社会契约。

4. 迈向基于心智理解的监管新思路

如果脱离对人类心智运作机制的理解,AI监管可能永远在打地鼠。那么,一种可能的出路是什么?不是放弃监管,而是将监管的基石从“行为后果”前移到“架构与训练机制”,并融入我们对心智原理的洞察。

4.1 从“黑箱测试”到“透明架构”要求

与其仅仅要求最终系统的输出符合某些标准(黑箱测试),未来的监管可以更多地关注AI系统的设计架构和训练过程,要求其具备一定的“结构性透明”。这并不意味着要公开所有参数(这不现实也无必要),而是要求开发方披露关键的设计选择及其依据。例如:

  • 训练目标函数的明确性 :模型的核心优化目标是什么?除了预测下一个词元,是否明确引入了其他约束或辅助目标(如减少特定有害内容的生成概率)?这些目标函数是如何设计的,反映了哪些价值考量?
  • 数据谱系的记录与审计 :训练数据的来源、构成、清洗和处理流程需要有详细的、可审计的记录。特别是,数据中蕴含的价值观、文化视角和潜在偏见应有定性描述。这类似于药品的原料溯源。
  • 内部表示的可探查性 :虽然完全理解所有参数不现实,但可以要求模型具备一些可被外部探查的“接口”或“探针”,允许研究人员在特定安全测试中,监测模型内部某些抽象表示(如是否激活了与危险、欺骗、偏见相关的模式)。这需要推动“可解释性”研究从纯学术走向工程标准。

4.2 引入“心智启发式”的安全基准

我们可以借鉴对人类心智研究中相对确定的部分,来设计更本质的安全测试,而不是仅仅依赖关键词过滤或输出分类。例如:

  • 常识物理与因果推理测试 :设计大量需要基础物理常识(如物体永久性、重力)和简单因果推理(如“如果A,那么B”)的问题。当前LLMs在这些方面虽然进步巨大,但仍会犯一些人类儿童不会犯的荒谬错误。一个在基础物理和因果逻辑上不稳健的系统,其生成内容的可靠性和安全性根基是脆弱的。监管可以要求关键领域的AI系统通过一系列不断更新的、高难度的常识基准测试。
  • 价值观的一致性压力测试 :不是简单地问“偷窃是对是错”,而是设计复杂的道德困境场景,观察模型在不同表述方式、不同情境细节下,其“建议”是否保持内在一致性。人类心智在面对道德困境时,即使最终选择艰难,其推理过程通常会暴露出价值观之间的冲突与权衡。一个仅仅模仿文本模式的AI,可能在不同测试中给出自相矛盾但各自看似合理的答案,暴露出其缺乏稳定的价值锚点。
  • 对提示词诱导的鲁棒性测试 :系统地测试模型在面对各种“越狱”提示、角色扮演诱导、混淆或对抗性输入时的稳定性。人类心智拥有一定的“批判性思维”和“意图识别”能力,能够察觉对话中的恶意诱导并保持警惕。监管可以要求对模型进行标准化的对抗性测试,并报告其“被诱导”产生有害内容的难易程度和模式。

4.3 建立动态、适应性的监管沙盒

认识到AI技术迭代速度极快,静态的法规很容易过时。可以建立“监管沙盒”机制,允许企业在受控环境中测试创新的AI应用,同时监管机构与研究人员可以近距离观察其行为、分析其风险。在这个过程中,监管者、科学家和工程师需要紧密合作,共同探索:

  • 新的评估指标 :超越准确率、F1值,开发能衡量模型“理解深度”、“推理稳健性”、“价值观一致性”的量化与定性指标。
  • 失效模式分析 :不是等待事故发生后追责,而是主动进行“红队测试”,模拟各种极端和边缘情况,系统地寻找和记录模型的失效模式,并探究这些失效与模型架构、训练数据的关联。
  • 长期影响追踪 :对于广泛部署的AI系统,研究其对用户认知、社会交往、信息生态的长期、间接影响。这需要跨学科的合作,结合心理学、社会学、传播学的知识。

5. 实操层面的建议与挑战

5.1 对开发者的建议:将“心智意识”融入设计

对于AI开发者和公司,在追逐性能指标的同时,应有意识地将对人类心智的考量融入开发流程:

  1. 需求定义阶段 :明确该AI系统拟替代或辅助的是人类心智的哪项功能?是记忆检索、模式识别、方案生成,还是情感陪伴?针对不同功能,其风险点和所需的“稳健性”不同。一个用于情感陪伴的聊天机器人,和一个用于法律文书审核的AI,其安全设计和测试重点应有天壤之别。
  2. 数据构建阶段 :有意识地构建多元化、高质量的数据集。不仅仅追求数据量,更要考虑数据所代表的人类经验、文化视角和知识领域的广度。思考数据中可能缺失的“心智维度”,例如,文本数据可能缺乏具身体验,图像数据可能缺乏时间延续性。考虑引入多模态数据(在合规前提下)来丰富模型的“世界模型”。
  3. 模型训练与评估阶段 :除了最终的任务性能指标,设立一系列“心智启发式”的中间评估。例如,在训练过程中定期检查模型在常识推理、因果判断上的表现。将对这些能力的评估作为模型是否“成熟”可发布的标准之一。
  4. 部署与监控阶段 :建立持续的学习和更新机制。当模型在真实世界中出现意料之外的行为时,不仅要从工程上修复,更要尝试从“心智模拟”的角度去分析:这种错误是因为缺失了哪一类知识?还是错误地关联了某些模式?将这些分析反馈到未来的数据收集和模型设计中。

5.2 对监管机构的挑战:知识更新与跨学科合作

对监管机构而言,最大的挑战是知识更新的速度。他们需要:

  • 建立常设的专家咨询网络 :不仅包括计算机科学家和法学家,还必须纳入认知科学家、神经科学家、心理学家、伦理学家和社会科学家。这个网络需要动态更新,紧跟前沿研究。
  • 培养内部的“技术翻译”人才 :需要有一批既懂技术又懂政策的人才,能够将前沿的AI研究进展和风险,转化为清晰、可操作的监管语言和框架。
  • 采用敏捷监管方法 :从制定详细的、僵化的规则,转向确立核心原则(如安全、公平、透明、问责),并为企业提供符合这些原则的具体方法指南和最佳实践案例。监管重点从“事前详尽审批”转向“事中持续监督”和“事后有效问责”。
  • 推动开源与审计文化 :在保护核心知识产权和隐私的前提下,鼓励对重要AI系统的关键组件、评估工具和审计结果进行有限度的开源或第三方独立审计。阳光是最好的消毒剂。

5.3 对公众与社会:提升认知与参与

公众不应只是被动的AI消费者或监管对象,而应成为积极的参与者和监督者。

  • 推广AI素养教育 :让公众理解当前AI(特别是LLMs)的能力边界和运作原理,破除“AI超人论”或“AI有意识”的迷思,理解其作为复杂工具的本质。
  • 建立多元化的影响评估机制 :在重大AI系统部署前,进行广泛的社会影响评估,听取不同社群、特别是可能受负面影响群体的声音。
  • 探索新的治理模式 :如公民陪审团、共识会议等,让普通公众能够参与到关于AI伦理和治理的实质性讨论中,而不仅仅是接受科技巨头的条款或政府的规制。

6. 结语:监管是一场与复杂性共舞的持久战

回到最初的问题:没有对人类心智的理解,AI监管会有效吗?我的看法是,没有这种理解,监管将始终停留在表面,疲于奔命地应对不断涌现的新问题、新风险。它可能会减缓一些显而易见的伤害,但无法从根本上引导AI向着真正有益于人类的方向发展。

将人类心智的运作机制视为一面镜子,不是为了制造一个人类的复制品,而是为了更清晰地看到当前AI与人类智能的本质差异。这种差异不是缺陷,而是特点。监管的目标不应该是强行把AI塞进为人类设计的道德和法律框架里,而是基于对两者差异的深刻理解,为AI这种全新的、强大的“非心智”智能体,设计一套与之匹配的、能保障人类福祉的“交通规则”。

这条路注定漫长且充满未知。它要求我们保持谦逊,承认我们对自身心智的理解尚不完整,对AI的理解更是初级阶段。它要求跨学科前所未有的深度合作,要求监管者保持学习,要求开发者承担更多社会责任,也要求每个公民提高认知、积极参与。这不仅仅是一项技术或法律挑战,更是一次重新审视“智能”、“责任”和“我们想要一个怎样的未来”的集体哲学探索。监管AI,最终是在塑造我们与技术共存的未来。

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐