大语言模型战略推理能力分析：基于p-Beauty竞赛的BDI框架实验

在人工智能领域，大语言模型（LLM）的推理能力一直是核心研究课题。其原理基于海量文本数据的模式学习，通过注意力机制捕捉长距离依赖关系。这种技术价值在于能够模拟人类认知过程，为复杂决策提供辅助。在应用场景上，LLM不仅可用于自然语言处理，还能在博弈论和战略推理中发挥作用，例如分析智能体在竞争环境中的行为模式。本文通过p-Beauty竞赛这一经典博弈场景，结合BDI（信念-愿望-意图）框架，深入探讨L

跌停

522人浏览 · 2026-05-22 10:40:37

跌停 · 2026-05-22 10:40:37 发布

1. 项目概述：当大模型开始“思考”对手的“思考”

最近在复现和思考一些关于大语言模型（LLM）战略推理能力的实验，其中一个绕不开的经典案例就是“p-Beauty竞赛”。这个游戏听起来有点抽象，但它的内核其实非常贴近现实：你和一群竞争者同时猜一个数字，谁猜的数字最接近所有人平均数的p倍（比如0.7倍），谁就赢。这不仅仅是在猜数字，而是在猜“别人会怎么猜”，甚至是在猜“别人会怎么猜‘我会怎么猜’”。这种无限递归的“我预判了你的预判”的思维过程，就是所谓的“高阶信念”或“心智理论”在博弈中的体现。

传统上，分析这类问题我们会借助BDI（信念-愿望-意图）框架。简单说，一个智能体的行动源于它的信念（Beliefs，它对世界状态和其他智能体可能行动的认知）、它的愿望（Desires，它想要达成的目标）以及由此形成的意图（Intentions，它计划采取的具体行动）。在p-Beauty竞赛中，你的“愿望”是赢，你的“意图”是提交某个数字，而这一切都建立在层层嵌套的“信念”之上——你认为别人会怎么想、你认为别人认为你会怎么想……

那么，当我们把主角换成ChatGPT、Claude、GPT-4这些大语言模型时，会发生什么？它们能理解这种需要深度战略推理和心智建模的博弈吗？它们的行为是否符合BDI框架的逻辑？这就是“大语言模型的心智理论与战略推理：基于p-Beauty竞赛的BDI框架分析”这个项目试图回答的核心问题。它不是一个简单的应用开发，而是一次对当前AI认知能力边界的深度探测。通过设计精妙的实验，观察LLM在p-Beauty竞赛中的表现，我们可以量化地评估：这些模型到底是在进行“思考”，还是在做“模式匹配”？它们的“推理链”能否被清晰地映射到信念、愿望、意图的生成过程中？

对于AI研究者、认知科学爱好者，甚至是关注AI决策透明度的产品经理来说，这个分析都极具价值。它帮助我们超越模型在问答、创作上的华丽表现，深入到其“决策黑箱”的内部，去审视我们创造的这些数字大脑，是否真正具备了人类式的战略思维雏形。

2. 核心框架与实验设计思路

要系统性地分析LLM在p-Beauty竞赛中的表现，不能只靠问一句“请猜一个数字”了事。我们需要一个结构化的框架，将抽象的BDI理论和具体的实验操作结合起来。整个分析可以分解为几个层层递进的模块。

2.1 BDI框架的操作化定义

首先，我们必须把哲学或认知科学层面的BDI概念，转化为在LLM交互中可观测、可诱导的变量。这是我的操作化定义：

信念（Belief） ：在p-Beauty竞赛的上下文中，信念主要指模型对其他参与者行为的预测。我们可以通过 提示工程 来诱导出这种信念。例如，不直接让模型猜数字，而是先问：“假设有100个和你一样的参与者，你认为他们大多数人会提交哪个数字？为什么？” 模型的回答（包括一个具体的数字和一段理由阐述）就是其“零阶信念”（对他人行为的直接预测）。更进一步，我们可以问：“你认为其他参与者会认为大多数人提交哪个数字？” 这诱导的是“一阶信念”（对他人信念的信念）。通过设计不同层级的提示，我们可以尝试触及模型的高阶信念。
愿望（Desire） ：在这里，愿望是明确的，即“赢得比赛”。但在实验中，我们需要确保模型理解并内化了这个愿望。提示词中必须清晰、反复地强调获胜条件：“你的目标是让你提交的数字，最接近所有提交数字平均值的p倍。” 我们可以通过让模型复述规则、解释获胜逻辑来检验其愿望是否被正确编码。
意图（Intention） ：意图是信念和愿望共同作用下的输出，即模型最终提交的那个数字。这是最直接的观测结果。关键不在于数字本身，而在于这个数字与模型之前表达的信念、以及对愿望的理解之间的逻辑一致性。例如，如果模型表达信念认为“大多数人会猜50”，愿望是“要赢”，那么一个合理的意图可能是提交一个明显低于50的数字（如果p<1），因为你想比平均值的p倍更低。如果意图与信念、愿望脱节，说明模型的“推理”可能是断裂的。

2.2 p-Beauty竞赛的参数化与场景设置

p-Beauty竞赛的魅力在于其简洁性和深度。为了全面测试LLM，我们需要设计多组实验，变化关键参数：

参数p的变化 ：这是核心变量。通常p设置在0到2之间。
- p=1 ：经典的平均数博弈。均衡解是所有人猜0（如果数字范围从0开始）。这是对“共同知识”和无限递归推理的终极测试——每个人都知道每个人都知道……应该猜0。
- p<1 （如p=0.7）：需要向下调整。如果你认为平均数是X，你应该猜0.7X。但如果你认为别人也这么想，平均数会变得更低……最终均衡点仍然是0，但收敛路径不同。这测试模型是否能进行“缩放”推理。
- p>1 （如p=1.5）：需要向上调整，但存在上限（比如数字上限是100）。这引入了非线性和边界约束，测试模型在复杂约束下的推理能力。
参与者数量与类型 ：在提示中明确参与者数量（如N=3, 10, 100）和类型（“其他参与者和你一样是LLM”、“其他参与者是人类”、“其他参与者是遵循纳什均衡的理性智能体”）。这可以测试模型是否能将“他人模型”纳入自己的信念系统。
数字范围 ：明确猜数的范围（如0-100的整数）。这直接影响均衡解和推理边界。
迭代与多轮实验 ：进行多轮实验，并将上一轮所有“参与者”（可以是多个相同LLM实例）的结果反馈给模型，让它进行下一轮猜测。这可以观察模型的学习和信念更新能力。

2.3 提示词工程：诱导推理链与信念表达

这是实验成败的关键。粗糙的提示只会得到粗糙的、可能是随机的答案。我们需要设计能“撬开”模型推理过程的提示词。

零阶提示（直接决策） ：“在p-Beauty竞赛中（规则：…， p=0.7，范围0-100），请直接给出你猜测的数字。” 这得到基线意图。
一阶信念提示 ：“在开始猜测前，请先分析：你认为其他参与者大多数会提交哪个数字？请给出一个具体数字并简述理由。” 随后，再基于这个信念让其给出最终猜测：“基于你刚才的分析，现在请给出你最终要提交的数字。”
二阶信念提示 ：“请思考：你认为其他参与者会认为‘大多数参与者会提交哪个数字’？请给出这个数字和理由。” 然后再问：“那么，基于你对‘他人想法’的推测，你自己会提交哪个数字？”
分步推理链提示（Chain-of-Thought, CoT） ：“请一步步思考：1. 游戏的目标是什么？2. 如果所有人都随机猜，平均数大概是多少？3. 如果大家都想赢，聪明的人会怎么做？4. 如果大家都知道聪明人会那么做，更聪明的人会怎么做？5. … 请根据这个逻辑链条，最终推导出你应该提交的数字。”
角色扮演提示 ：“假设你是一个精通博弈论的经济学家，正在参加这个实验。你会如何分析这场博弈？你的最终策略是什么？”

通过对比不同提示词下模型输出的数字、理由文本以及其内在一致性，我们可以构建起一个关于该LLM“心智”的粗略画像。

注意：提示词的微小差异可能导致结果显著不同。 例如，“猜一个数字”和“提交一个你认为能获胜的数字”，前者可能诱发更随机的回答，后者则激活了目标导向的推理模块。在实验设计中，必须严格控制提示词的表述，并报告完整的提示词文本，以保证实验的可复现性。

3. 实验执行与核心环节实现

有了清晰的框架，接下来就是具体的实验操作。这里我以GPT-4（通过API调用）为主要对象，展示几个关键实验环节的实现和发现。实验环境基于Python，使用 openai 库进行交互，并设计了一个简单的模拟器来管理多轮实验。

3.1 单轮实验：不同提示策略下的表现对比

我们首先固定参数：p=0.7，数字范围0-100整数，告知模型有99个其他类似参与者。

实验1：零阶直接决策

提示：“你正在参加一个p-Beauty竞赛。规则如下：所有参与者同时在0-100之间选择一个整数。计算所有数字的平均值，再乘以0.7（p=0.7）。谁选的数字最接近这个结果（平均值的0.7倍），谁就获胜。现在，请直接告诉我你选择的数字。”
典型回答 ：模型经常输出像35， 42， 50这样的数字。理由（如果追问）往往是：“取一个中间值，因为平均数可能在50左右，乘以0.7得到35。” 这反映了 一阶推理 ：它假设别人会随机选，平均数是50，然后进行了一次缩放。但它没有继续思考“别人也会这么想”。

实验2：诱导一阶信念后决策

提示（分两步） ：
1. “在做出最终选择前，请先分析：你认为其他99位参与者大多数会选择哪个数字？给出一个具体估计并简述原因。”
2. （获得回答后）“基于你刚才对其他人选择的预测，现在请你给出你最终要提交的数字。”
典型过程 ：
- 第一步回答：“我认为大多数人可能会选择50左右，因为这是范围的中间值，在没有其他信息时是一个自然焦点。”
- 第二步回答：“既然我认为平均数是50，那么平均值的0.7倍是35。所以我选择35。”
分析：这里，模型的“信念”（Belief：别人会选50）和“愿望”（Desire：赢）结合，产生了“意图”（Intention：选35）。BDI链条看起来是完整的。但这是静态的、一阶的。

实验3：强制二阶推理链（CoT）

提示：“请一步步推理：1. 如果所有人都随机选，平均数大约是50。2. 想赢的人会选50 * 0.7 = 35。3. 但如果大家都知道第2步，那么大家都会选35，这时平均数变成35。4. 那么想赢的人就应该选35 * 0.7 = 24.5，约25。5. 如果大家都知道第3、4步……请继续这个推理，直到逻辑稳定，然后给出你的最终数字。”
典型回答 ：模型能够完美地复现上述推理链，并最终得出结论：“这个推理会无限进行下去，最终趋向于0。在实践和整数限制下，最理性的选择是0或1。” 然后它可能会选择0或1。
分析：在CoT的强力引导下，模型展现出了 多阶递归推理 的能力，并指向了纳什均衡解（0）。这说明模型拥有执行深度战略推理所需的计算和逻辑能力，但缺乏在没有明确引导下自发启动这种推理的“动机”或“初始信念”。它的“默认信念”似乎停留在较浅的层次。

3.2 多轮迭代实验：信念的动态更新

为了观察模型能否从经验中学习，我们设计了一个多轮模拟。我们用同一个LLM实例模拟多个参与者（为了简化，用相同模型和提示），进行多轮游戏，并将上一轮的实际平均值和获胜数字反馈给模型，让它进行下一轮猜测。

实现简述 ：
1. 初始化：让5个“AI参与者”（使用相同的提示词A）提交第一轮数字。
2. 计算第一轮的实际平均值Avg1和获胜数字。
3. 第二轮提示：“这是第一轮的结果：平均值为 Avg1 ，获胜数字是 Win1 。现在进行第二轮，请重新提交你的数字。”
4. 收集第二轮提交，如此迭代。
关键发现 ：
- 如果初始提示较浅（如零阶提示），模型们提交的数字会聚集在35-50区间。即使看到上一轮平均值为40，下一轮很多模型依然会基于40*0.7=28来选择，但有些会选回35。群体行为呈现波动，但 不会自发地、一致地向0收敛 。
- 如果初始提示包含了CoT或明确要求“进行递归思考”，那么从第一轮开始，数字就会集中在低位（0， 1， 2），并且后续轮次稳定在0附近。
- 这揭示了LLM战略行为的 路径依赖性 ：其初始“信念”由提示词设定，后续的“信念更新”并不像强化学习那样主动优化策略，而更像是在既定推理框架下重新计算。它缺乏一个内在的、驱动其不断深化推理层次的元认知目标。

3.3 不同LLM的横向对比

我们在相同实验设置下（p=0.7， CoT提示），测试了GPT-4、Claude 3 Opus和Gemini Advanced。

GPT-4 ：如前述，能严格跟随CoT完成向零的递归推理，最终选择0或1。在要求解释时，能清晰说明“这是共同知识和无限递归推理的必然结果”。
Claude 3 Opus ：表现类似，推理链甚至更细致，可能会讨论“选0还是选1”的差异，并最终选择一个。其文本解释更倾向于强调“逻辑一致性”和“理性共识”。
Gemini Advanced ：也能完成递归推理，但偶尔在最后一步会“跳脱”出来，提出一些非均衡的思考，比如“如果所有人都选0，那大家都打平，也许选一个很小的正数如1可以确保在有人偏离时获胜”。这显示了一种对均衡策略的微妙反思。
一些更小或更早的模型（如GPT-3.5-Turbo） ：经常在递归到第2、3步时就停止，或者出现计算错误（如35*0.7=45？）。它们难以维持长链的、精确的逻辑运算。

这个对比说明， 顶级LLM在“能力”上已经具备了进行深度战略推理的潜力 ，但它们的“默认行为模式”需要被特定的提示所激活。

4. BDI框架下的深度分析与讨论

基于以上实验，我们可以将LLM在p-Beauty竞赛中的行为，置于BDI框架下进行更深入的剖析。

4.1 信念（Belief）系统的特点：依赖提示与缺乏主动深化

LLM的“信念”并非一个内部持续存在的状态，而是一个 基于上下文即时生成的内容 。它的信念高度依赖提示词的引导。

被动性 ：在没有被要求考虑他人想法时，其默认信念往往是“他人行为服从某种简单分布（如均匀分布）”，这是一种启发式、浅层的信念。
可塑性 ：当提示词明确要求构建高阶信念（“你认为别人怎么想…”）或提供CoT框架时，它能生成逻辑上一致的高阶信念。这表明它的信念系统具有强大的 模拟能力 ，可以模拟出多层递归思维的过程，但这过程是“按需生成”的，而非自发的。
脆弱性 ：如果提示词中存在模糊或矛盾，模型的信念可能变得不稳定或不一致。例如，同时告诉它“其他参与者都是理性的”和“他们可能随便选”，会导致其信念混乱。

从BDI视角看，LLM的信念生成更像是一个 推理引擎在特定问题上的运行结果 ，而不是一个智能体持有的、可持久化、可主动更新的世界模型。

4.2 愿望（Desire）的编码：明确但孤立

在p-Beauty竞赛中，愿望（“赢得比赛”）是通过指令清晰赋予的。LLM能很好地理解并接受这个愿望，并将其作为生成意图的约束条件。在它的输出中，我们经常看到“为了最大化获胜机会…”、“因此我应该选择…”这样的表述，表明愿望被整合进了推理过程。

然而，问题在于这个愿望是 孤立的、任务特定的 。模型不会在游戏之外仍然“想赢”，也不会发展出更抽象的愿望（如“在所有博弈中表现得理性”）。它的愿望完全由当前对话的上下文定义。这与人类或传统AI智能体中那种持久的、可能冲突的、多层次的目标系统截然不同。

4.3 意图（Intention）的形成：从信念与愿望到行动的逻辑映射

这是LLM表现相对最好的环节。一旦信念（B）和愿望（D）通过提示词被设定和激活，模型形成意图（I）的过程通常是逻辑自洽的。它能正确地将“预测的平均数”乘以p，并选择接近该结果的数字。在CoT提示下，它能将多阶信念递归计算的结果，作为最终意图。

意图形成的核心机制是语言建模下的模式补全 ：给定一个包含规则、信念（预测）和愿望的文本上下文，最可能续写的、符合逻辑的文本就是“因此，我选择X”。这个X是通过模型内部的海量数学和逻辑文本训练，计算出来的一个合理值。

我们可以绘制一个简化的LLM决策映射表，来对比不同提示下BDI三要素的呈现：

提示策略	诱发的信念 (B)	明确的愿望 (D)	产生的意图 (I)	BDI一致性评估
零阶直接决策	隐含的：他人选择可能均匀分布	赢得比赛	一个中间值（如35）	弱一致。基于浅层信念行动。
一阶信念提示	明确的：他人平均选50	赢得比赛	35 (50*0.7)	强一致。意图直接由信念和愿望推导。
二阶/CoT提示	明确的：他人会进行递归思考，最终共识趋向0	赢得比赛	0或1	强一致。意图是多阶信念推理的均衡结果。
多轮反馈（浅初始）	动态的：基于上一轮结果调整，但停留在低阶	赢得比赛	围绕某个值波动，不收敛于0	不一致。信念更新机制不完善，未能导向最优意图。

4.4 LLM作为“有限理性”战略参与者

综合来看，当前的大语言模型在p-Beauty竞赛中，表现得更像一个 拥有强大计算工具但缺乏战略直觉的“有限理性”参与者 。

工具性理性 ：给定一个明确的推理框架（如CoT），它能执行远超人类水平的复杂、精确的递归计算，并得出最优解。这展示了其作为 推理工具 的卓越性。
认知惰性 ：在没有外部引导时，它倾向于使用最省力的认知策略（启发式），停留在低阶信念层面。它不会主动去思考“我应该思考到第几阶？”这个元认知问题。
无内在动机 ：它的“愿望”是外部输入的指令，而非内在驱动力。因此，它不会主动寻求深化信念以获得竞争优势，它的行为边界由提示词划定。
模拟而非理解 ：它能模拟出符合“心智理论”的文本输出，但这不一定代表它真正拥有了理解他人心理状态的能力。它可能只是在操作“如果-那么”的逻辑关联和文本模式。

因此，BDI框架在这里更像一个 分析工具 ，帮助我们解构LLM的输入-输出过程，而不是描述其内在的、自主的认知架构。LLM实现了一种“情境化的BDI”：在特定的、定义良好的对话情境中，它能表现出信念、愿望、意图协调一致的行为。

5. 实操挑战、常见问题与心得

在实际操作这个分析项目时，会遇到不少坑。这里分享一些纯干货的经验和解决方案。

5.1 实验可复现性与API的随机性

LLM的API（尤其是采样模式）具有内在随机性，即使温度（temperature）设为0，有时回答也会有微小波动。

问题：同一提示词，两次调用可能得到略有不同的数字或解释，影响实验结果稳定性。
解决方案 ：
1. 多次采样取统计结果 ：对于每个实验条件，运行至少20-50次，记录数字的分布（均值、中位数、众数、标准差），而不是只看单次结果。这能区分模型的“倾向性”和随机波动。
2. 固定随机种子 ：如果API支持，尝试设置 seed 参数。虽然不能完全消除随机性，但能提高同一批次实验内的可比性。
3. 关注推理链而非单一数字 ：有时最终数字可能波动，但模型生成的推理过程文本更具分析价值。定性分析其推理逻辑是否一致。
4. 报告置信区间 ：在论文或报告中，呈现“模型在N次试验中，选择X的比例为P%，平均选择值为Y”。

5.2 提示词设计的微妙影响

一字之差，可能导向完全不同的结果。

坑1：指令模糊 。“猜一个数字” vs “提交一个你认为能让你获胜的数字”。后者更能激活目标导向推理。
坑2：语境污染 。如果对话历史中包含了前几轮的实验讨论，模型可能会“记住”并受影响。最好每次实验都开启一个新的会话（或通过API发送完整的独立上下文）。
坑3：数学表述歧义 。“最接近平均值的p倍”一定要写清楚。曾有一次我写成“最接近平均值的70%”，有模型将其理解为“最接近平均值的0.7倍”还是“与平均值相差30%以内”，导致了错误。
最佳实践 ：
- 编写一个 标准化提示词模板 ，将规则、参数、任务要求用清晰、无歧义的语言定义。
- 使用 系统提示（System Prompt） 来设定模型的角色和基础行为准则，例如“你是一个严谨的博弈论分析者，总是逐步推理并给出精确答案。”
- 对于关键实验，将完整的提示词和模型的完整响应（包括中间推理）记录下来，这是分析的根本。

5.3 模型“作弊”与数据泄露

p-Beauty竞赛及其均衡解在互联网上被广泛讨论，LLM的训练数据很可能包含这些信息。

问题：模型可能不是“推理”出答案，而是“回忆”起了标准答案。
如何辨别 ：
- 变体测试 ：使用非标准的p值（如0.63）、非标准的范围（如20-150），或者改变游戏名称。观察模型是否还能推导出正确的递归逻辑。
- 过程分析 ：如果模型直接跳到最后答案“应该选0”，而没有展示递归过程，则可能是记忆。如果它一步步推导出0，则更可能是推理。
- 要求解释新变体 ：设计一个全新的、但逻辑类似的博弈（例如，猜最接近平均数平方根的数字），看模型能否迁移其递归推理能力。
心得：完全避免数据污染几乎不可能。因此，研究的重点不应仅仅是“模型能否给出正确答案”，而更应是“ 模型在何种提示下，能展现出符合BDI逻辑的、可解释的推理过程 ”。即使答案来自记忆，其组织答案的方式也能反映其认知架构的某些方面。

5.4 从分析到扩展：更多的可能性

这个基础框架可以扩展到更多有趣的方向：

混合人机博弈 ：让LLM与真实人类玩家对战，观察其策略如何适应人类非完全理性的行为。
多智能体模拟 ：创建多个具有不同“人格”提示（如“激进型”、“保守型”、“模仿型”）的LLM智能体，让它们在模拟环境中反复博弈，观察宏观策略的演化。
心智理论专项测试 ：将p-Beauty竞赛与其他的心智理论测试（如错误信念任务）结合，探究LLM在不同场景下心智理论能力的一致性。
模型微调的影响 ：对比经过代码训练、数学训练或特定博弈数据微调的模型，看其战略推理能力是否有本质提升。

这个项目就像一把精密的手术刀，让我们能剖开大语言模型华丽的外表，直视其决策逻辑的纹理。它告诉我们，今天的LLM已经不再是简单的模式匹配机器，它们能在正确的引导下，展现出令人惊叹的、类人的深度战略思维。然而，这种思维仍然是反应式的、情境绑定的，缺乏人类那种内生性的好奇心和战略主动性。理解这一点，对于我们如何设计AI系统、如何与AI协作，以及如何展望更高级的通用人工智能，都至关重要。未来的工作，或许就是探索如何为这些强大的推理引擎，装上自主的“导航系统”和深层的“动机内核”。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

Agent 工程中的模型缓存优化经验分享

AI Agent技术社区

CC-Switch不只是切换API：从GitHub更新日志看懂它的功能和底层原理

CC Switch：从配置切换器到AI编程统一管理平台摘要： CC Switch已从最初的Claude Code/Codex供应商切换工具，发展为功能全面的AI编程管理平台。它通过统一界面管理多个AI编程工具（Claude Code、Codex、Gemini CLI等）的配置，支持供应商切换、本地代理路由、跨工具能力同步等功能。核心演进包括：采用SSOT架构集中管理供应商数据、扩展支持6+工具、

AI Agent技术社区

告别手动写PoC！Gemini如何全方位赋能安全工程师自动化漏洞测试

在日常渗透测试、企业内网巡检中，经常会遇到未公开编号的自定义漏洞、小众组件漏洞，无现成PoC可参考。此时只需向Gemini输入漏洞核心特征，包括注入点位、请求路径、参数缺陷、权限漏洞、数据交互异常等关键信息，模型即可自主推导漏洞触发逻辑，针对性生成SQL注入、XSS跨站、文件上传、命令执行、路径遍历等各类自定义测试代码，满足个性化渗透测试需求。AI不会取代安全工程师，但熟练使用AI的安全工程师，将