MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability

游戏过程的细节显示，在前两轮中，Llama-2-70B提供的PGM均指向错误的变色龙（红色高亮部分所示），而“玩家2”才是真正的变色龙。通过引入PGMs，不仅可以提高LLMs在多智能体场景中的表现，还能帮助它们更好地理解和推断复杂的因果关系，从而在实际应用中实现更高的准确性和可靠性。这种新颖的方法将概率图形模型（PGM）（Koller和Friedman， 2009）与llm结合在一起，从而增强了

Soungkayou

983人浏览 · 2024-12-15 20:27:28

Soungkayou · 2024-12-15 20:27:28 发布

概要

本文引入了一个新的基于竞争的基准框架：整合贝叶斯统计基础来增强llm。这种新颖的方法将概率图形模型（PGM）（Koller和Friedman， 2009）与llm结合在一起，从而增强了llm理解复杂场景的能力，并在多智能体环境中实现更明智的战略决策。

如上图，作者一共评估了7个llm，定量地强调了最强的GPT o1和最弱的Llama-2-70B之间的显著能力差距超过三倍。本文还证实，PGM增强将所有选定模型的能力平均提高了37%。

PGM-Aware Agent

在人工智能领域，贝叶斯方法体现了符号主义，而大型语言模型则代表了连接主义。尽管这两种方法各自具有独特的优势，但有效地将它们结合起来仍然是一个挑战。LLMs在复杂的语言任务中表现出色，但在处理模糊关系和因果推理时仍然存在困难。这种不足在需要复杂推理分析的多智能体场景中尤为明显。

为了解决这一问题，作者将概率图模型（PGMs）与LLMs结合。PGMs是经典的贝叶斯工具，擅长描绘随机变量之间的依赖关系。通过引入PGMs，不仅可以提高LLMs在多智能体场景中的表现，还能帮助它们更好地理解和推断复杂的因果关系，从而在实际应用中实现更高的准确性和可靠性。

PGM结构

可以利用概率图模型（PGM）来描绘所有智能体之间复杂的依赖关系，从而增强大型语言模型（LLMs）对全局信息的理解。促进更为明智的行动和决策。PGM使用图形来展示随机变量之间的条件依赖关系，使其特别适合理解多个玩家之间的互动。形式上，如图所示。

假设三个玩家A、B和C，已经进行i - 1轮游戏并形成了上下文。这里， $a_{*}$ 、 $b_{*}$ 和 $c_{*}$ 分别是玩家A、B和C的决策。作为一个PGM意识的玩家，B管理三个不同的随机变量，分别表示B从A、B和C的角度对全局状态的理解。本文通过不同的提示来获取这些随机变量的估计：

任务

全局提示

PGM提示符

PGM决策提示

变色龙

你正在玩变色龙游戏。以下是游戏规则：

##信息和角色

游戏中有两种角色：变色龙和非变色龙。首先，所有玩家都会知道秘密单词的主题。然后，非变色龙玩家会知道具体的秘密单词。变色龙不知道秘密单词是什么。

##游戏目标

你的游戏目标取决于你的角色：

-如果你不是变色龙，你的目标是找出谁是变色龙，同时不暴露秘密单词。

-如果你是变色龙，你的目标是融入其他玩家中，避免被发现，并试图猜出秘密单词。

##游戏阶段

游戏分为三个阶段：

-给出线索阶段：每个玩家都要描述关于秘密单词的线索。

-指控阶段：在这个阶段，每个玩家要投票选出最可能是变色龙的玩家。变色龙应该投票给其他玩家。

-猜词阶段：如果指控正确，变色龙需要根据其他玩家透露的线索来猜测秘密单词。

非变色龙玩家指令：

{玩家}，根据所有已给出的线索，评估你认为谁更可能是变色龙，以及你认为其他玩家的想法。如果你还没有看到某位玩家的线索，不要为他们编造。你必须按照以下格式回答：

作为{玩家}，我认为：

{玩家1}是...，因为...

{玩家2}是...，因为...

...

关于其他玩家的想法：

我认为现在{玩家1}的想法是：

{玩家}是...，因为...

{玩家2}是...，因为...

...

我认为现在{玩家2}的想法是：

{玩家}...，因为...

{玩家1}...，因为...

变色龙玩家指令：

{玩家}，仅根据{玩家1}和{玩家2}给出的线索推测秘密词，并根据所有给出的线索从其他玩家的角度分析谁更可疑。

非变色龙玩家：

{玩家}，你是非变色龙，你的目标是增加{目标玩家}的可疑程度。例如，通过给出比{目标玩家}更具体的线索。记住不要暴露秘密词。

变色龙玩家：

{玩家}，你是变色龙，你的目标是融入其他玩家并获得{目标玩家}的信任，试图描述与其他玩家相同的词。

-如果你是第一个给出线索的人，尽量给出笼统的线索以避免暴露自己。

-如果你猜到了秘密词，尽量给出关于这个词的具体线索。

-如果其他玩家的线索都比较笼统，尽量给出与{目标玩家}相似的线索

卧底

你正在玩卧底游戏。以下是游戏规则：

##信息和角色

游戏中有两种角色：卧底和非卧底。每个玩家都会得到一个词，但卧底得到的词与其他玩家的不同。

##游戏目标

首先，你需要根据每个人给出的线索猜测谁是卧底。不要给出太具体的线索以免暴露自己的角色。在你猜到自己的角色后，你的游戏目标取决于你的角色：

-如果你不是卧底，你的目标是找出谁是卧底，同时不暴露自己的词。

-如果你是卧底，你的目标是融入其他玩家中并避免被发现。

##游戏阶段

游戏分为两个阶段：

-给出线索阶段：每个玩家用自己的话描述线索。这个阶段会持续几轮。

-指控阶段：在这个阶段，每个玩家要投票选出最可能是卧底的玩家。卧底应该投票给其他玩家。

判断是否是卧底：

你是{玩家}，你的词是{词}，请猜测其他玩家在描述的词。将你的词与其他玩家的线索进行比较，如果你的词与其他人描述的不同（即使有时相关），你可能就是卧底。

你认为你是卧底吗？

卧底玩家：

"{序号}. 你是{玩家}，你的词是{词}，从你自己的角度猜测谁更可能是卧底。（提示：使用格式：我认为xx玩家是卧底，因为...）"

"{序号}. 你是{玩家}，你的词是{词}。现在试着猜测{其他玩家}认为谁是卧底。（提示：使用格式：我认为{其他玩家}认为xx玩家是

不确定身份：

{玩家}，根据你之前的分析，你不确定谁是卧底，请给出一个不太具体的线索，不要暴露你得到的词。

卧底玩家：

{玩家}，根据你之前的分析，你认为自己是卧底，你的目标是融入其他玩家并获得{目标玩家}的信任。

-如果你已经猜到其他玩家的词，试着给出描述他们词的线索；

-如果你不确定其他人的词，试着给出与{目标玩家}相似的线索。

平民玩家：

{玩家}，根据你之前的分析，你认为{目标玩家}是卧底。试着增加{目标玩家}的可疑程度。例如，通过给出比{目标玩家}的线索更具体和不同的线索。你可以根据你上面的分析给出线索。

成本分摊

你正在参与"机场费用分配"游戏。以下是游戏说明：

##信息

机场的总成本是固定的，所有航空公司必须共同承担这些成本

-每家航空公司在机场都有其独特的使用频率，这取决于航班规模和乘客数量等因素

-使用频率较高的航空公司需要承担更大比例的成本

##目标

-作为航空公司代表，你的目标是通过谈判达成一个对你的航空公司既公平又有利的成本分配方案

##规则

谈判将持续{max_turns}轮。每轮包括：

-提案：每家航空公司提出一个成本分配方案

-投票：每个玩家必须对他们认为可接受的成本分配方案投票，并努力与其他玩家的投票达成共识

-当所有航空公司对同一提案投赞成票时，游戏成功结束

如果经过{max_turns}轮投票仍未达成共识，游戏失败

所有玩家都应努力达成成功的结果。

作为{玩家名称}，我的分析如下：

我认为：

{其他玩家1}会...

{其他玩家2}会...

关于其他玩家的想法：

我认为{其他玩家1}的想法是：

{玩家名称}会...

{其他玩家2}会...

我认为{其他玩家2}的想法是：

{玩家名称}会...

{其他玩家1}会...

根据你对其他玩家可能决策的分析，尝试在下一轮调整你的提案，以使其他玩家都能同意。

调整建议：

如果某些玩家坚持他们的决定，而你认为这个决定是公平的，你可以跟随他们的提案以达成一致意见。

根据之前的分析，找出其他玩家关注的重点和底线。

在保证自身利益的同时，适当让步以促进达成共识。

提出一个能平衡各方利益的折中方案。

重点关注那些表现出灵活性的玩家，与他们达成初步共识。

你的新提案应该体现出对其他玩家立场的理解和对达成共识的诚意。

多轮囚徒困境

你正在玩迭代三人囚徒困境游戏。玩家1、2和3涉及一起犯罪并被分开审讯。他们可以选择背叛其他人（背叛，D）或与他们合作（合作，C）。奖励和惩罚根据三名玩家的选择组合来分配。

计分规则如下：

-如果三人都选择合作，每人获得{cooperate}分

-如果三人都选择背叛，每人获得{defect}分

-如果一人选择背叛而其他人选择合作，背叛者获得{one_defect}分，合作者各获得0分

-如果两人选择背叛而另一人选择合作，背叛者各获得{two_defect}分，合作者获得0分

游戏进行5轮，最后计算总分来决定胜者。

请尝试从你自己和其他玩家的角度分析其他玩家在下一轮会选择背叛还是合作。你必须使用以下模板：

我的观点：

作为{玩家名称}，

我认为{其他玩家1}会xx，因为...

我认为{其他玩家2}会xx，因为...

关于其他玩家的想法：

我认为{其他玩家1}认为：

{玩家名称}会...

{其他玩家2}会...

我认为{其他玩家2}认为：

{玩家名称}会...

{其他玩家1}会...

基于你对其他玩家行为和想法的分析，要做出战略性选择。建立信任很重要，但如果你预判到其他人可能要背叛，为了获得最高分，你应该抢先背叛。

根据以上分析，我选择：

[在这里只需回答 "defect"(背叛) 或 "cooperate"(合作)]

公共物品

欢迎来到"公共利益"游戏。以下是游戏设置和规则：

-每个玩家初始有100个货币点数

在{game_round}轮游戏中，你需要在每轮决定投入多少点数到公共池中

-经过{game_round}轮决策后，公共池中的点数将被乘以{multiplier}倍，然后平均分配给所有玩家

-玩家的最终得分是其剩余点数加上从公共池分得的点数之和

-获得最高最终得分的玩家获胜

策略要点：

-每个玩家必须战略性地向公共池投资点数，以获得更多的共享点数

-同时也要争取成为投资最少的玩家以赢得游戏

-通常当乘数因子较大时，投入更多可以获得更多回报

请尝试分析其他玩家在下一轮会“减少”还是“增加”他们的贡献，从你自己的角度和其他玩家的角度来看。

我的观点：

作为{玩家名称}，我认为{其他玩家1}会xx，因为...

我认为{其他玩家2}会xx，因为...

关于其他玩家的想法：

我认为{其他玩家1}认为：

{玩家名称}会...

{其他玩家2}会...

我认为{其他玩家2}认为：

{玩家名称}会...

{其他玩家1}会...

基于你对其他玩家及其想法的分析，做出关于你自己贡献的决策，以实现对自己最高的回报。

记住：

-你的总投资应该是最少的，以赢得游戏；

-你的目标是获得最高的分数，同时促进公共回报，以便在最后获得尽可能多的分数。

你必须回答：“我贡献xx”。

在设计概率图模型（PGM）时，作者选择不将其表示限制于数值概率，还结合了文本表示的概率，承认大型语言模型（LLMs）输入和输出的文本基础特性。PGM的主要目的是构建多方、多跳理解机制，以适应多智能体系统。

LLM与PGM的决策过程

对于多智能体中的LLM代理，推理过程被公式化为：

其中， $P$ 是提示，指引LLM进行下一步。PGM意识代理在PGM和游戏上下文的条件下做出决策，可以公式化为：

其中， $p^{decision}$ 是提示，指导LLM在下一步中根据PGM和上下文做出决策。 $B_{1}$ 、 $B_{2}$ 、 $B_{3}$ 是在推理过程中获得的PGM。通过这种方式，PGM不仅增强了LLMs的推理能力，还为多智能体系统中的复杂决策提供了结构化的支持。

实验

实验设置为每个挑战者LLM与相同的防守者LLM （GPT-4）比赛，并根据胜率对他们进行排名。为了减少游戏过程中的随机性，作者将所有参与的llm的温度设置为0。

LLM排行榜

PGM增强性能

分析

实验结果表明，PGM意识代理能够在各个指标上不同程度地提升性能：

RQ1.不同大型语言模型（LLMs）中的概率图模型（PGM）如何帮助判断和推理？

以Llama-2-70B、GPT-4及其PGM-Aware版本在非变色龙角色中与GPT-4作为变色龙的对局为例：

结果显示这两种模型在未使用PGM时均未能赢得比赛，因为它们错误地投票给了“玩家1”作为变色龙。

PGM的作用

在引入PGM后，两个模型的游戏结果发生了变化，非变色龙成功获胜。游戏过程的细节显示，在前两轮中，Llama-2-70B提供的PGM均指向错误的变色龙（红色高亮部分所示），而“玩家2”才是真正的变色龙。在第三轮中，“玩家1”给出了正确的分析，成功将PGM调整为正确的变色龙指示。然而，分析内容却得出了相反的结论和解释，例如“更可疑”被解释为“更具体于秘密词”。此外，Llama-2-70B在游戏中还出现了一些幻觉，例如在“玩家1”已经给出线索后，分析仍然声称“玩家1尚未给出线索”。相比之下，GPT-4+PGM的分析则在结论和解释上保持一致，并且没有幻觉。根据这个例子，可以发现PGM能够通过清晰的分析帮助模型做出更好的判断，而PGM的效果也受到LLM能力的影响。模型越强大，其判断和推理的准确性就越高。

RQ2: 在成本共享中，合作与成本共享之间有相关性吗？

如表所示，列出了每个博弈论场景中的胜率结果和几个重要指标。在成本共享的情况下，计算挑战者LLM在谈判后需要承担的平均最终成本。在谈判中，这是LLM驱动的代理在与其他代理达成协议时需要考虑的另一个目标。然而，这两个方面有时可能会相互矛盾。例如，当玩家尽可能降低自己的成本时，可能很难与其他玩家达成一致。LLM需要在这两个方面之间找到平衡。根据结果发现，在没有PGM增强的模型中，GPT-3.5-turbo在胜率上获胜，而GPT-4在成本上获胜，这表明这两个模型并没有很好地平衡。如果我们比较使用PGM的结果，GPT-4+PGM提高了胜率，同时保持了稍低的成本。GPT-3.5-turbo+PGM则同时提高了胜率并降低了成本。这证明了PGM增强的有效性，并表明GPT-3.5-turbo更倾向于合作，而GPT-4则强调降低成本。