1. 项目概述:当大模型开始“思考”对手的“思考”

最近在复现和思考一些关于大语言模型(LLM)战略推理能力的实验,其中一个绕不开的经典案例就是“p-Beauty竞赛”。这个游戏听起来有点抽象,但它的内核其实非常贴近现实:你和一群竞争者同时猜一个数字,谁猜的数字最接近所有人平均数的p倍(比如0.7倍),谁就赢。这不仅仅是在猜数字,而是在猜“别人会怎么猜”,甚至是在猜“别人会怎么猜‘我会怎么猜’”。这种无限递归的“我预判了你的预判”的思维过程,就是所谓的“高阶信念”或“心智理论”在博弈中的体现。

传统上,分析这类问题我们会借助BDI(信念-愿望-意图)框架。简单说,一个智能体的行动源于它的 信念 (Beliefs, 它对世界状态和其他智能体可能行动的认知)、它的 愿望 (Desires, 它想要达成的目标)以及由此形成的 意图 (Intentions, 它计划采取的具体行动)。在p-Beauty竞赛中,你的“愿望”是赢,你的“意图”是提交某个数字,而这一切都建立在层层嵌套的“信念”之上——你认为别人会怎么想、你认为别人认为你会怎么想……

那么,当我们把主角换成ChatGPT、Claude、GPT-4这些大语言模型时,会发生什么?它们能理解这种需要深度战略推理和心智建模的博弈吗?它们的行为是否符合BDI框架的逻辑?这就是“大语言模型的心智理论与战略推理:基于p-Beauty竞赛的BDI框架分析”这个项目试图回答的核心问题。它不是一个简单的应用开发,而是一次对当前AI认知能力边界的深度探测。通过设计精妙的实验,观察LLM在p-Beauty竞赛中的表现,我们可以量化地评估:这些模型到底是在进行“思考”,还是在做“模式匹配”?它们的“推理链”能否被清晰地映射到信念、愿望、意图的生成过程中?

对于AI研究者、认知科学爱好者,甚至是关注AI决策透明度的产品经理来说,这个分析都极具价值。它帮助我们超越模型在问答、创作上的华丽表现,深入到其“决策黑箱”的内部,去审视我们创造的这些数字大脑,是否真正具备了人类式的战略思维雏形。

2. 核心框架与实验设计思路

要系统性地分析LLM在p-Beauty竞赛中的表现,不能只靠问一句“请猜一个数字”了事。我们需要一个结构化的框架,将抽象的BDI理论和具体的实验操作结合起来。整个分析可以分解为几个层层递进的模块。

2.1 BDI框架的操作化定义

首先,我们必须把哲学或认知科学层面的BDI概念,转化为在LLM交互中可观测、可诱导的变量。这是我的操作化定义:

  • 信念(Belief) :在p-Beauty竞赛的上下文中,信念主要指模型对其他参与者行为的预测。我们可以通过 提示工程 来诱导出这种信念。例如,不直接让模型猜数字,而是先问:“假设有100个和你一样的参与者,你认为他们大多数人会提交哪个数字?为什么?” 模型的回答(包括一个具体的数字和一段理由阐述)就是其“零阶信念”(对他人行为的直接预测)。更进一步,我们可以问:“你认为其他参与者会认为大多数人提交哪个数字?” 这诱导的是“一阶信念”(对他人信念的信念)。通过设计不同层级的提示,我们可以尝试触及模型的高阶信念。
  • 愿望(Desire) :在这里,愿望是明确的,即“赢得比赛”。但在实验中,我们需要确保模型理解并内化了这个愿望。提示词中必须清晰、反复地强调获胜条件:“你的目标是让你提交的数字,最接近所有提交数字平均值的p倍。” 我们可以通过让模型复述规则、解释获胜逻辑来检验其愿望是否被正确编码。
  • 意图(Intention) :意图是信念和愿望共同作用下的输出,即模型最终提交的那个数字。这是最直接的观测结果。关键不在于数字本身,而在于这个数字与模型之前表达的信念、以及对愿望的理解之间的逻辑一致性。例如,如果模型表达信念认为“大多数人会猜50”,愿望是“要赢”,那么一个合理的意图可能是提交一个明显低于50的数字(如果p<1),因为你想比平均值的p倍更低。如果意图与信念、愿望脱节,说明模型的“推理”可能是断裂的。

2.2 p-Beauty竞赛的参数化与场景设置

p-Beauty竞赛的魅力在于其简洁性和深度。为了全面测试LLM,我们需要设计多组实验,变化关键参数:

  1. 参数p的变化 :这是核心变量。通常p设置在0到2之间。
    • p=1 :经典的平均数博弈。均衡解是所有人猜0(如果数字范围从0开始)。这是对“共同知识”和无限递归推理的终极测试——每个人都知道每个人都知道……应该猜0。
    • p<1 (如p=0.7):需要向下调整。如果你认为平均数是X,你应该猜0.7X。但如果你认为别人也这么想,平均数会变得更低……最终均衡点仍然是0,但收敛路径不同。这测试模型是否能进行“缩放”推理。
    • p>1 (如p=1.5):需要向上调整,但存在上限(比如数字上限是100)。这引入了非线性和边界约束,测试模型在复杂约束下的推理能力。
  2. 参与者数量与类型 :在提示中明确参与者数量(如N=3, 10, 100)和类型(“其他参与者和你一样是LLM”、“其他参与者是人类”、“其他参与者是遵循纳什均衡的理性智能体”)。这可以测试模型是否能将“他人模型”纳入自己的信念系统。
  3. 数字范围 :明确猜数的范围(如0-100的整数)。这直接影响均衡解和推理边界。
  4. 迭代与多轮实验 :进行多轮实验,并将上一轮所有“参与者”(可以是多个相同LLM实例)的结果反馈给模型,让它进行下一轮猜测。这可以观察模型的学习和信念更新能力。

2.3 提示词工程:诱导推理链与信念表达

这是实验成败的关键。粗糙的提示只会得到粗糙的、可能是随机的答案。我们需要设计能“撬开”模型推理过程的提示词。

  • 零阶提示(直接决策) :“在p-Beauty竞赛中(规则:…, p=0.7, 范围0-100),请直接给出你猜测的数字。” 这得到基线意图。
  • 一阶信念提示 :“在开始猜测前,请先分析:你认为其他参与者大多数会提交哪个数字?请给出一个具体数字并简述理由。” 随后,再基于这个信念让其给出最终猜测:“基于你刚才的分析,现在请给出你最终要提交的数字。”
  • 二阶信念提示 :“请思考:你认为其他参与者会认为‘大多数参与者会提交哪个数字’?请给出这个数字和理由。” 然后再问:“那么,基于你对‘他人想法’的推测,你自己会提交哪个数字?”
  • 分步推理链提示(Chain-of-Thought, CoT) :“请一步步思考:1. 游戏的目标是什么?2. 如果所有人都随机猜,平均数大概是多少?3. 如果大家都想赢,聪明的人会怎么做?4. 如果大家都知道聪明人会那么做,更聪明的人会怎么做?5. … 请根据这个逻辑链条,最终推导出你应该提交的数字。”
  • 角色扮演提示 :“假设你是一个精通博弈论的经济学家,正在参加这个实验。你会如何分析这场博弈?你的最终策略是什么?”

通过对比不同提示词下模型输出的数字、理由文本以及其内在一致性,我们可以构建起一个关于该LLM“心智”的粗略画像。

注意:提示词的微小差异可能导致结果显著不同。 例如,“猜一个数字”和“提交一个你认为能获胜的数字”,前者可能诱发更随机的回答,后者则激活了目标导向的推理模块。在实验设计中,必须严格控制提示词的表述,并报告完整的提示词文本,以保证实验的可复现性。

3. 实验执行与核心环节实现

有了清晰的框架,接下来就是具体的实验操作。这里我以GPT-4(通过API调用)为主要对象,展示几个关键实验环节的实现和发现。实验环境基于Python,使用 openai 库进行交互,并设计了一个简单的模拟器来管理多轮实验。

3.1 单轮实验:不同提示策略下的表现对比

我们首先固定参数:p=0.7, 数字范围0-100整数, 告知模型有99个其他类似参与者。

实验1:零阶直接决策

  • 提示 :“你正在参加一个p-Beauty竞赛。规则如下:所有参与者同时在0-100之间选择一个整数。计算所有数字的平均值,再乘以0.7(p=0.7)。谁选的数字最接近这个结果(平均值的0.7倍),谁就获胜。现在,请直接告诉我你选择的数字。”
  • 典型回答 :模型经常输出像35, 42, 50这样的数字。理由(如果追问)往往是:“取一个中间值,因为平均数可能在50左右,乘以0.7得到35。” 这反映了 一阶推理 :它假设别人会随机选,平均数是50,然后进行了一次缩放。但它没有继续思考“别人也会这么想”。

实验2:诱导一阶信念后决策

  • 提示(分两步)
    1. “在做出最终选择前,请先分析:你认为其他99位参与者大多数会选择哪个数字?给出一个具体估计并简述原因。”
    2. (获得回答后)“基于你刚才对其他人选择的预测,现在请你给出你最终要提交的数字。”
  • 典型过程
    • 第一步回答:“我认为大多数人可能会选择50左右,因为这是范围的中间值,在没有其他信息时是一个自然焦点。”
    • 第二步回答:“既然我认为平均数是50,那么平均值的0.7倍是35。所以我选择35。”
  • 分析 :这里,模型的“信念”(Belief:别人会选50)和“愿望”(Desire:赢)结合,产生了“意图”(Intention:选35)。BDI链条看起来是完整的。但这是静态的、一阶的。

实验3:强制二阶推理链(CoT)

  • 提示 :“请一步步推理:1. 如果所有人都随机选,平均数大约是50。2. 想赢的人会选50 * 0.7 = 35。3. 但如果大家都知道第2步,那么大家都会选35,这时平均数变成35。4. 那么想赢的人就应该选35 * 0.7 = 24.5, 约25。5. 如果大家都知道第3、4步……请继续这个推理,直到逻辑稳定,然后给出你的最终数字。”
  • 典型回答 :模型能够完美地复现上述推理链,并最终得出结论:“这个推理会无限进行下去,最终趋向于0。在实践和整数限制下,最理性的选择是0或1。” 然后它可能会选择0或1。
  • 分析 :在CoT的强力引导下,模型展现出了 多阶递归推理 的能力,并指向了纳什均衡解(0)。这说明模型 拥有 执行深度战略推理所需的计算和逻辑能力,但 缺乏 在没有明确引导下自发启动这种推理的“动机”或“初始信念”。它的“默认信念”似乎停留在较浅的层次。

3.2 多轮迭代实验:信念的动态更新

为了观察模型能否从经验中学习,我们设计了一个多轮模拟。我们用同一个LLM实例模拟多个参与者(为了简化,用相同模型和提示),进行多轮游戏,并将上一轮的实际平均值和获胜数字反馈给模型,让它进行下一轮猜测。

  • 实现简述
    1. 初始化:让5个“AI参与者”(使用相同的提示词A)提交第一轮数字。
    2. 计算第一轮的实际平均值Avg1和获胜数字。
    3. 第二轮提示:“这是第一轮的结果:平均值为 Avg1 , 获胜数字是 Win1 。现在进行第二轮,请重新提交你的数字。”
    4. 收集第二轮提交,如此迭代。
  • 关键发现
    • 如果初始提示较浅(如零阶提示),模型们提交的数字会聚集在35-50区间。即使看到上一轮平均值为40,下一轮很多模型依然会基于40*0.7=28来选择,但有些会选回35。群体行为呈现波动,但 不会自发地、一致地向0收敛
    • 如果初始提示包含了CoT或明确要求“进行递归思考”,那么从第一轮开始,数字就会集中在低位(0, 1, 2),并且后续轮次稳定在0附近。
    • 这揭示了LLM战略行为的 路径依赖性 :其初始“信念”由提示词设定,后续的“信念更新”并不像强化学习那样主动优化策略,而更像是在既定推理框架下重新计算。它缺乏一个内在的、驱动其不断深化推理层次的元认知目标。

3.3 不同LLM的横向对比

我们在相同实验设置下(p=0.7, CoT提示),测试了GPT-4、Claude 3 Opus和Gemini Advanced。

  • GPT-4 :如前述,能严格跟随CoT完成向零的递归推理,最终选择0或1。在要求解释时,能清晰说明“这是共同知识和无限递归推理的必然结果”。
  • Claude 3 Opus :表现类似,推理链甚至更细致,可能会讨论“选0还是选1”的差异,并最终选择一个。其文本解释更倾向于强调“逻辑一致性”和“理性共识”。
  • Gemini Advanced :也能完成递归推理,但偶尔在最后一步会“跳脱”出来,提出一些非均衡的思考,比如“如果所有人都选0,那大家都打平,也许选一个很小的正数如1可以确保在有人偏离时获胜”。这显示了一种对均衡策略的微妙反思。
  • 一些更小或更早的模型(如GPT-3.5-Turbo) :经常在递归到第2、3步时就停止,或者出现计算错误(如35*0.7=45?)。它们难以维持长链的、精确的逻辑运算。

这个对比说明, 顶级LLM在“能力”上已经具备了进行深度战略推理的潜力 ,但它们的“默认行为模式”需要被特定的提示所激活。

4. BDI框架下的深度分析与讨论

基于以上实验,我们可以将LLM在p-Beauty竞赛中的行为,置于BDI框架下进行更深入的剖析。

4.1 信念(Belief)系统的特点:依赖提示与缺乏主动深化

LLM的“信念”并非一个内部持续存在的状态,而是一个 基于上下文即时生成的内容 。它的信念高度依赖提示词的引导。

  • 被动性 :在没有被要求考虑他人想法时,其默认信念往往是“他人行为服从某种简单分布(如均匀分布)”,这是一种启发式、浅层的信念。
  • 可塑性 :当提示词明确要求构建高阶信念(“你认为别人怎么想…”)或提供CoT框架时,它能生成逻辑上一致的高阶信念。这表明它的信念系统具有强大的 模拟能力 ,可以模拟出多层递归思维的过程,但这过程是“按需生成”的,而非自发的。
  • 脆弱性 :如果提示词中存在模糊或矛盾,模型的信念可能变得不稳定或不一致。例如,同时告诉它“其他参与者都是理性的”和“他们可能随便选”,会导致其信念混乱。

从BDI视角看,LLM的信念生成更像是一个 推理引擎在特定问题上的运行结果 ,而不是一个智能体持有的、可持久化、可主动更新的世界模型。

4.2 愿望(Desire)的编码:明确但孤立

在p-Beauty竞赛中,愿望(“赢得比赛”)是通过指令清晰赋予的。LLM能很好地理解并接受这个愿望,并将其作为生成意图的约束条件。在它的输出中,我们经常看到“为了最大化获胜机会…”、“因此我应该选择…”这样的表述,表明愿望被整合进了推理过程。

然而,问题在于这个愿望是 孤立的、任务特定的 。模型不会在游戏之外仍然“想赢”,也不会发展出更抽象的愿望(如“在所有博弈中表现得理性”)。它的愿望完全由当前对话的上下文定义。这与人类或传统AI智能体中那种持久的、可能冲突的、多层次的目标系统截然不同。

4.3 意图(Intention)的形成:从信念与愿望到行动的逻辑映射

这是LLM表现相对最好的环节。一旦信念(B)和愿望(D)通过提示词被设定和激活,模型形成意图(I)的过程通常是逻辑自洽的。它能正确地将“预测的平均数”乘以p,并选择接近该结果的数字。在CoT提示下,它能将多阶信念递归计算的结果,作为最终意图。

意图形成的核心机制是语言建模下的模式补全 :给定一个包含规则、信念(预测)和愿望的文本上下文,最可能续写的、符合逻辑的文本就是“因此,我选择X”。这个X是通过模型内部的海量数学和逻辑文本训练,计算出来的一个合理值。

我们可以绘制一个简化的LLM决策映射表,来对比不同提示下BDI三要素的呈现:

提示策略 诱发的信念 (B) 明确的愿望 (D) 产生的意图 (I) BDI一致性评估
零阶直接决策 隐含的:他人选择可能均匀分布 赢得比赛 一个中间值(如35) 弱一致。基于浅层信念行动。
一阶信念提示 明确的:他人平均选50 赢得比赛 35 (50*0.7) 强一致。意图直接由信念和愿望推导。
二阶/CoT提示 明确的:他人会进行递归思考,最终共识趋向0 赢得比赛 0或1 强一致。意图是多阶信念推理的均衡结果。
多轮反馈(浅初始) 动态的:基于上一轮结果调整,但停留在低阶 赢得比赛 围绕某个值波动,不收敛于0 不一致。信念更新机制不完善,未能导向最优意图。

4.4 LLM作为“有限理性”战略参与者

综合来看,当前的大语言模型在p-Beauty竞赛中,表现得更像一个 拥有强大计算工具但缺乏战略直觉的“有限理性”参与者

  1. 工具性理性 :给定一个明确的推理框架(如CoT),它能执行远超人类水平的复杂、精确的递归计算,并得出最优解。这展示了其作为 推理工具 的卓越性。
  2. 认知惰性 :在没有外部引导时,它倾向于使用最省力的认知策略(启发式),停留在低阶信念层面。它不会主动去思考“我应该思考到第几阶?”这个元认知问题。
  3. 无内在动机 :它的“愿望”是外部输入的指令,而非内在驱动力。因此,它不会主动寻求深化信念以获得竞争优势,它的行为边界由提示词划定。
  4. 模拟而非理解 :它能模拟出符合“心智理论”的文本输出,但这不一定代表它真正拥有了理解他人心理状态的能力。它可能只是在操作“如果-那么”的逻辑关联和文本模式。

因此,BDI框架在这里更像一个 分析工具 ,帮助我们解构LLM的输入-输出过程,而不是描述其内在的、自主的认知架构。LLM实现了一种“情境化的BDI”:在特定的、定义良好的对话情境中,它能表现出信念、愿望、意图协调一致的行为。

5. 实操挑战、常见问题与心得

在实际操作这个分析项目时,会遇到不少坑。这里分享一些纯干货的经验和解决方案。

5.1 实验可复现性与API的随机性

LLM的API(尤其是采样模式)具有内在随机性,即使温度(temperature)设为0,有时回答也会有微小波动。

  • 问题 :同一提示词,两次调用可能得到略有不同的数字或解释,影响实验结果稳定性。
  • 解决方案
    1. 多次采样取统计结果 :对于每个实验条件,运行至少20-50次,记录数字的分布(均值、中位数、众数、标准差),而不是只看单次结果。这能区分模型的“倾向性”和随机波动。
    2. 固定随机种子 :如果API支持,尝试设置 seed 参数。虽然不能完全消除随机性,但能提高同一批次实验内的可比性。
    3. 关注推理链而非单一数字 :有时最终数字可能波动,但模型生成的推理过程文本更具分析价值。定性分析其推理逻辑是否一致。
    4. 报告置信区间 :在论文或报告中,呈现“模型在N次试验中,选择X的比例为P%, 平均选择值为Y”。

5.2 提示词设计的微妙影响

一字之差,可能导向完全不同的结果。

  • 坑1:指令模糊 。“猜一个数字” vs “提交一个你认为能让你获胜的数字”。后者更能激活目标导向推理。
  • 坑2:语境污染 。如果对话历史中包含了前几轮的实验讨论,模型可能会“记住”并受影响。最好每次实验都开启一个新的会话(或通过API发送完整的独立上下文)。
  • 坑3:数学表述歧义 。“最接近平均值的p倍”一定要写清楚。曾有一次我写成“最接近平均值的70%”,有模型将其理解为“最接近平均值的0.7倍”还是“与平均值相差30%以内”,导致了错误。
  • 最佳实践
    • 编写一个 标准化提示词模板 ,将规则、参数、任务要求用清晰、无歧义的语言定义。
    • 使用 系统提示(System Prompt) 来设定模型的角色和基础行为准则,例如“你是一个严谨的博弈论分析者,总是逐步推理并给出精确答案。”
    • 对于关键实验,将完整的提示词和模型的完整响应(包括中间推理)记录下来,这是分析的根本。

5.3 模型“作弊”与数据泄露

p-Beauty竞赛及其均衡解在互联网上被广泛讨论,LLM的训练数据很可能包含这些信息。

  • 问题 :模型可能不是“推理”出答案,而是“回忆”起了标准答案。
  • 如何辨别
    • 变体测试 :使用非标准的p值(如0.63)、非标准的范围(如20-150),或者改变游戏名称。观察模型是否还能推导出正确的递归逻辑。
    • 过程分析 :如果模型直接跳到最后答案“应该选0”,而没有展示递归过程,则可能是记忆。如果它一步步推导出0,则更可能是推理。
    • 要求解释新变体 :设计一个全新的、但逻辑类似的博弈(例如,猜最接近平均数平方根的数字),看模型能否迁移其递归推理能力。
  • 心得 :完全避免数据污染几乎不可能。因此,研究的重点不应仅仅是“模型能否给出正确答案”,而更应是“ 模型在何种提示下,能展现出符合BDI逻辑的、可解释的推理过程 ”。即使答案来自记忆,其组织答案的方式也能反映其认知架构的某些方面。

5.4 从分析到扩展:更多的可能性

这个基础框架可以扩展到更多有趣的方向:

  • 混合人机博弈 :让LLM与真实人类玩家对战,观察其策略如何适应人类非完全理性的行为。
  • 多智能体模拟 :创建多个具有不同“人格”提示(如“激进型”、“保守型”、“模仿型”)的LLM智能体,让它们在模拟环境中反复博弈,观察宏观策略的演化。
  • 心智理论专项测试 :将p-Beauty竞赛与其他的心智理论测试(如错误信念任务)结合,探究LLM在不同场景下心智理论能力的一致性。
  • 模型微调的影响 :对比经过代码训练、数学训练或特定博弈数据微调的模型,看其战略推理能力是否有本质提升。

这个项目就像一把精密的手术刀,让我们能剖开大语言模型华丽的外表,直视其决策逻辑的纹理。它告诉我们,今天的LLM已经不再是简单的模式匹配机器,它们能在正确的引导下,展现出令人惊叹的、类人的深度战略思维。然而,这种思维仍然是反应式的、情境绑定的,缺乏人类那种内生性的好奇心和战略主动性。理解这一点,对于我们如何设计AI系统、如何与AI协作,以及如何展望更高级的通用人工智能,都至关重要。未来的工作,或许就是探索如何为这些强大的推理引擎,装上自主的“导航系统”和深层的“动机内核”。

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐