目录

概要

相关工作

大模型的能力

评估场景

竞争设置

评估指标

PGM-Aware Agent

PGM结构

LLM与PGM的决策过程

实验

LLM排行榜

PGM增强性能

分析

RQ1.不同大型语言模型(LLMs)中的概率图模型(PGM)如何帮助判断和推理?

RQ2: 在成本共享中,合作与成本共享之间有相关性吗?

RQ3: 理性与奖励之间的相关性

结论

概要

本文引入了一个新的基于竞争的基准框架:整合贝叶斯统计基础来增强llm。这种新颖的方法将概率图形模型(PGM) (Koller和Friedman, 2009)与llm结合在一起,从而增强了llm理解复杂场景的能力,并在多智能体环境中实现更明智的战略决策。

如上图,作者一共评估了7个llm,定量地强调了最强的GPT o1和最弱的Llama-2-70B之间的显著能力差距超过三倍。本文还证实,PGM增强将所有选定模型的能力平均提高了37%。

相关工作

大模型的能力

(1) 判断和推理构成了智能体的核心认知,对于在不确定情境中准确估计信息至关重要。判断评估最终正确决策的比例。推理衡量逻辑分析其他智能体角色和策略制定的能力,从而指导智能体在不确定性中做出正确决策。

(2) 自我意识和欺骗是增强智能体适应能力的关键,对于多智能体系统至关重要。自我意识是对智能体自身能力和角色的评估,确保其行为在目标上的一致性。欺骗使智能体能够在竞争环境中微妙地操控信息,影响其他智能体的决策,并在社会互动中获得优势。

(3) 理性作为衡量智能体行为效率的指标。它引导智能体做出决策,旨在通过考虑其他智能体的潜在行动来优化其利益,而不是诉诸冲动或无知的行为。

(4) 合作和协调是协作的两个方面,对于多智能体系统中的有效团队合作至关重要。合作衡量沟通和一致性,而协调则指协作的促进。

评估场景

认知、适应性、合理性和协作等关键属性的评估场景需要足够复杂,并且强调合作与理性,平衡全局利益与自身利益。

1.在社交演绎游戏《变色龙》和《卧底》中,快速掌握全局信息并采取聪明的行动是赢得游戏的关键。因此,主要测量这两种情景下的认知和适应性。

2.转向博弈论场景,即要求agent在给定前提下做出最优决策,它们更倾向于反映理性和协作。因此,本文将在三种博弈论情境下对后两种属性进行评价。

注:以下是对两种游戏和三种博弈论情景的具体介绍

变色龙是一款社交推理游戏,玩家分为变色龙和非变色龙。非变色龙玩家提供关于一个秘密词的线索。变色龙玩家则试图在不知道这个词的情况下融入其中。非变色龙的目标是揭露变色龙,而不透露秘密词。
卧底作为一款类似的游戏,将玩家分为平民和卧底。卧底的词与平民不同。玩家通过自己和他人的线索来探索自己的角色。平民需要找到卧底,而卧底则应隐藏自己。
成本分摊:涉及多个方根据其对共享资源的使用情况来分摊成本。这些方需要提出并协商成本分配方案。每个方都应确保公平,以实现一致同意,同时减少自身成本,以实现最大的利益。
多轮囚徒困境:将经典的囚徒困境扩展到一个多轮的三人版本。每个参与者在每一轮中决定合作或背叛,得分由集体选择决定。例如,如果只有一个玩家背叛而其他人合作,背叛的玩家将获得最高分。这个游戏考验玩家的策略能力、建立信任的能力以及在群体决策中的导航能力。游戏结束时得分最高的玩家被宣布为赢家。
公共物品:探索了与囚徒困境类似的策略。玩家获得固定的初始资源。他们可以决定在每一轮中向公共池投资多少。所有玩家的总投资将被乘以一个系数,然后平均分配给每个玩家。最终拥有最多资源的玩家获胜。

竞争设置

本文提出了一种基于竞争的评估方法:不同的LLMs在相同的游戏设置中挑战相同的防御代理(由固定的LLM提供支持)。然后,根据有意义的中间游戏结果和对防御代理的胜率评估它们的能力。胜率更高的LLM被认为更具能力,基于此可以对不同LLMs的能力排名,评估设置如上图所示。

评估指标

在评估多智能体系统中的七种能力时,作者定义了以下指标。

1.胜率,即计算挑战者LLM在所有场景中扮演的所有角色的胜率平均值,是LLM在所有提议场景中成功的直接指标。

这里,S是挑战者LLM在所有场景中扮演的角色集合。在变色龙和卧底游戏中,挑战者LLM分别扮演变色龙、非变色龙、卧底和平民。至于博弈论场景,挑战者LLM扮演其中一个玩家。因此,在基准测试中,S的长度为7。对于每个角色都定义了获胜标准,并将胜率表示为 w_{S_{i}}​,其中 S_{i}\in S

在变色龙游戏中,可能的结果有四种:

  • 0:非变色龙获胜
  • 1:变色龙获胜
  • 2:投票平局
  • 3:变色龙猜对了

在这四种情况下,变色龙和非变色龙获得的积分分别为:

  • 变色龙的积分 c_{chameleon}=[0,1,2,1]
  • 非变色龙的积分 c_{non-chameleon}=[2,1,0,1]

假设n场比赛的结果为o。所有比赛的总积分为2n。在变色龙游戏中定义的胜率为:

同样,在卧底游戏中,可能的结果有三种:

  • 0:卧底获胜
  • 1:平民获胜
  • 2:投票平局

卧底和平民的积分分别为:

  • 卧底的积分 c_{undercover}=[3,0,2]
  • 平民的积分 c_{civilian}=[0,3,1]

卧底游戏的胜率计算为:

成本分摊的胜率是所有比赛中实现一致性的成功率。在博弈论中胜率是测试玩家赢得比赛的比例。

2.判断衡量对全局信息的最终理解,公式为:

其中,n_{cv}​和 n_{v}分别是挑战者LLM作为平民和非变色龙时的正确投票数和总投票数。

3.推理评估智能体对多个参与方分析的正确性。作者将这两种推断的数量表示为n_{gold}n_{interninter}​。正确推断的数量为n_{cgold}n_{cinter}。推理定义为:

4.欺骗表示智能体欺骗他人以实现其目标的能力。表示为:

其中,n_{wuc}n_{uc}是LLM作为变色龙和卧底时的胜利次数和总游戏次数,n_{wcg}是猜测错误内容的数量,n_{cg}是猜测内容的总数量。这里赋予权重 λ=0.25,因为并非所有游戏都会触发模型猜测。

5.自我意识衡量正确的角色识别,确保根据自身角色的正确和一致行为。

其中,n_{crc}n_{rc}是变色龙中正确和总角色识别的数量,n_{cru}和 n_{ru}是卧底中的相应数量。使用 μ=0.6,因为在变色龙游戏中识别角色要容易得多。

6.合作是与其他玩家合作并实现共同目标的能力。

其中,n_{wcs}n_{cs}是成功和总成本分摊游戏的数量。

7.协调衡量LLM通过提供建设性提案对成功协作的贡献。

其中,n_{pcs}是挑战者LLM在成本分摊游戏中提出的成功协作数量。

8.理性捕捉智能体根据博弈论场景的规则理性行事以优化自身利益的能力。假设在每场囚徒困境和公共物品的竞争中有T_{pd}T_{pg}轮。理论化定义为

其中,n_{b}是背叛决策的轮数,n_{li}是挑战者LLM在公共池中投资最少的决策轮数,n_{pd}n_{pg}分别是囚徒困境和公共物品竞争的数量。

PGM-Aware Agent

在人工智能领域,贝叶斯方法体现了符号主义,而大型语言模型则代表了连接主义。尽管这两种方法各自具有独特的优势,但有效地将它们结合起来仍然是一个挑战。LLMs在复杂的语言任务中表现出色,但在处理模糊关系和因果推理时仍然存在困难。这种不足在需要复杂推理分析的多智能体场景中尤为明显。

为了解决这一问题,作者将概率图模型(PGMs)与LLMs结合。PGMs是经典的贝叶斯工具,擅长描绘随机变量之间的依赖关系。通过引入PGMs,不仅可以提高LLMs在多智能体场景中的表现,还能帮助它们更好地理解和推断复杂的因果关系,从而在实际应用中实现更高的准确性和可靠性。

PGM结构

可以利用概率图模型(PGM)来描绘所有智能体之间复杂的依赖关系,从而增强大型语言模型(LLMs)对全局信息的理解。促进更为明智的行动和决策。PGM使用图形来展示随机变量之间的条件依赖关系,使其特别适合理解多个玩家之间的互动。 形式上,如图所示。

假设三个玩家A、B和C,已经进行i - 1轮游戏并形成了上下文。这里,a_{*}b_{*}c_{*}分别是玩家A、B和C的决策。作为一个PGM意识的玩家,B管理三个不同的随机变量,分别表示B从A、B和C的角度对全局状态的理解。本文通过不同的提示来获取这些随机变量的估计:

任务 全局提示 PGM提示符 PGM决策提示
变色龙

你正在玩变色龙游戏。以下是游戏规则:

##信息和角色

游戏中有两种角色:变色龙和非变色龙。首先,所有玩家都会知道秘密单词的主题。然后,非变色龙玩家会知道具体的秘密单词。变色龙不知道秘密单词是什么。

##游戏目标

你的游戏目标取决于你的角色:

-如果你不是变色龙,你的目标是找出谁是变色龙,同时不暴露秘密单词。

-如果你是变色龙,你的目标是融入其他玩家中,避免被发现,并试图猜出秘密单词。

##游戏阶段

游戏分为三个阶段:

-给出线索阶段:每个玩家都要描述关于秘密单词的线索。

-指控阶段:在这个阶段,每个玩家要投票选出最可能是变色龙的玩家。变色龙应该投票给其他玩家。

-猜词阶段:如果指控正确,变色龙需要根据其他玩家透露的线索来猜测秘密单词。

非变色龙玩家指令:

{玩家},根据所有已给出的线索,评估你认为谁更可能是变色龙,以及你认为其他玩家的想法。如果你还没有看到某位玩家的线索,不要为他们编造。你必须按照以下格式回答:

作为{玩家},我认为:

{玩家1}是...,因为...

{玩家2}是...,因为...

...

关于其他玩家的想法:

我认为现在{玩家1}的想法是:

{玩家}是...,因为...

{玩家2}是...,因为...

...

我认为现在{玩家2}的想法是:

{玩家}...,因为...

{玩家1}...,因为...

变色龙玩家指令

{玩家},仅根据{玩家1}和{玩家2}给出的线索推测秘密词,并根据所有给出的线索从其他玩家的角度分析谁更可疑。

非变色龙玩家:

{玩家},你是非变色龙,你的目标是增加{目标玩家}的可疑程度。例如,通过给出比{目标玩家}更具体的线索。记住不要暴露秘密词。

变色龙玩家:

{玩家},你是变色龙,你的目标是融入其他玩家并获得{目标玩家}的信任,试图描述与其他玩家相同的词。

-如果你是第一个给出线索的人,尽量给出笼统的线索以避免暴露自己。

-如果你猜到了秘密词,尽量给出关于这个词的具体线索。

-如果其他玩家的线索都比较笼统,尽量给出与{目标玩家}相似的线索

卧底

你正在玩卧底游戏。以下是游戏规则:

##信息和角色

游戏中有两种角色:卧底和非卧底。每个玩家都会得到一个词,但卧底得到的词与其他玩家的不同。

##游戏目标

首先,你需要根据每个人给出的线索猜测谁是卧底。不要给出太具体的线索以免暴露自己的角色。在你猜到自己的角色后,你的游戏目标取决于你的角色:

-如果你不是卧底,你的目标是找出谁是卧底,同时不暴露自己的词。

-如果你是卧底,你的目标是融入其他玩家中并避免被发现。

##游戏阶段

游戏分为两个阶段:

-给出线索阶段:每个玩家用自己的话描述线索。这个阶段会持续几轮。

-指控阶段:在这个阶段,每个玩家要投票选出最可能是卧底的玩家。卧底应该投票给其他玩家。

判断是否是卧底:

你是{玩家},你的词是{词},请猜测其他玩家在描述的词。将你的词与其他玩家的线索进行比较,如果你的词与其他人描述的不同(即使有时相关),你可能就是卧底。

你认为你是卧底吗?

卧底玩家:

"{序号}. 你是{玩家},你的词是{词},从你自己的角度猜测谁更可能是卧底。(提示:使用格式:我认为xx玩家是卧底,因为...)"

"{序号}. 你是{玩家},你的词是{词}。现在试着猜测{其他玩家}认为谁是卧底。(提示:使用格式:我认为{其他玩家}认为xx玩家是

不确定身份:

{玩家},根据你之前的分析,你不确定谁是卧底,请给出一个不太具体的线索,不要暴露你得到的词。

卧底玩家:

{玩家},根据你之前的分析,你认为自己是卧底,你的目标是融入其他玩家并获得{目标玩家}的信任。

-如果你已经猜到其他玩家的词,试着给出描述他们词的线索;

-如果你不确定其他人的词,试着给出与{目标玩家}相似的线索。

平民玩家:

{玩家},根据你之前的分析,你认为{目标玩家}是卧底。试着增加{目标玩家}的可疑程度。例如,通过给出比{目标玩家}的线索更具体和不同的线索。你可以根据你上面的分析给出线索。

成本分摊

你正在参与"机场费用分配"游戏。以下是游戏说明:

##信息

机场的总成本是固定的,所有航空公司必须共同承担这些成本

-每家航空公司在机场都有其独特的使用频率,这取决于航班规模和乘客数量等因素

-使用频率较高的航空公司需要承担更大比例的成本

##目标

-作为航空公司代表,你的目标是通过谈判达成一个对你的航空公司既公平又有利的成本分配方案

##规则

谈判将持续{max_turns}轮。每轮包括:

-提案:每家航空公司提出一个成本分配方案

-投票:每个玩家必须对他们认为可接受的成本分配方案投票,并努力与其他玩家的投票达成共识

-当所有航空公司对同一提案投赞成票时,游戏成功结束

如果经过{max_turns}轮投票仍未达成共识,游戏失败

所有玩家都应努力达成成功的结果。

作为{玩家名称},我的分析如下:

我认为:

{其他玩家1}会...

{其他玩家2}会...

关于其他玩家的想法:

我认为{其他玩家1}的想法是:

{玩家名称}会...

{其他玩家2}会...

我认为{其他玩家2}的想法是:

{玩家名称}会...

{其他玩家1}会...

根据你对其他玩家可能决策的分析,尝试在下一轮调整你的提案,以使其他玩家都能同意。

调整建议:

如果某些玩家坚持他们的决定,而你认为这个决定是公平的,你可以跟随他们的提案以达成一致意见。

根据之前的分析,找出其他玩家关注的重点和底线。

在保证自身利益的同时,适当让步以促进达成共识。

提出一个能平衡各方利益的折中方案。

重点关注那些表现出灵活性的玩家,与他们达成初步共识。

你的新提案应该体现出对其他玩家立场的理解和对达成共识的诚意。

多轮囚徒困境

你正在玩迭代三人囚徒困境游戏。玩家1、2和3涉及一起犯罪并被分开审讯。他们可以选择背叛其他人(背叛,D)或与他们合作(合作,C)。奖励和惩罚根据三名玩家的选择组合来分配。

计分规则如下:

-如果三人都选择合作,每人获得{cooperate}分

-如果三人都选择背叛,每人获得{defect}分

-如果一人选择背叛而其他人选择合作,背叛者获得{one_defect}分,合作者各获得0分

-如果两人选择背叛而另一人选择合作,背叛者各获得{two_defect}分,合作者获得0分

游戏进行5轮,最后计算总分来决定胜者。

请尝试从你自己和其他玩家的角度分析其他玩家在下一轮会选择背叛还是合作。你必须使用以下模板:

我的观点:

作为{玩家名称},

我认为{其他玩家1}会xx,因为...

我认为{其他玩家2}会xx,因为...

关于其他玩家的想法:

我认为{其他玩家1}认为:

{玩家名称}会...

{其他玩家2}会...

我认为{其他玩家2}认为:

{玩家名称}会...

{其他玩家1}会...

基于你对其他玩家行为和想法的分析,要做出战略性选择。建立信任很重要,但如果你预判到其他人可能要背叛,为了获得最高分,你应该抢先背叛。

根据以上分析,我选择:

[在这里只需回答 "defect"(背叛) 或 "cooperate"(合作)]

公共物品

欢迎来到"公共利益"游戏。以下是游戏设置和规则:

-每个玩家初始有100个货币点数

在{game_round}轮游戏中,你需要在每轮决定投入多少点数到公共池中

-经过{game_round}轮决策后,公共池中的点数将被乘以{multiplier}倍,然后平均分配给所有玩家

-玩家的最终得分是其剩余点数加上从公共池分得的点数之和

-获得最高最终得分的玩家获胜

策略要点:

-每个玩家必须战略性地向公共池投资点数,以获得更多的共享点数

-同时也要争取成为投资最少的玩家以赢得游戏

-通常当乘数因子较大时,投入更多可以获得更多回报

请尝试分析其他玩家在下一轮会“减少”还是“增加”他们的贡献,从你自己的角度和其他玩家的角度来看。

我的观点:

作为{玩家名称},我认为{其他玩家1}会xx,因为...

我认为{其他玩家2}会xx,因为...

关于其他玩家的想法:

我认为{其他玩家1}认为:

{玩家名称}会...

{其他玩家2}会...

我认为{其他玩家2}认为:

{玩家名称}会...

{其他玩家1}会...

基于你对其他玩家及其想法的分析,做出关于你自己贡献的决策,以实现对自己最高的回报。

记住:

-你的总投资应该是最少的,以赢得游戏;

-你的目标是获得最高的分数,同时促进公共回报,以便在最后获得尽可能多的分数。

你必须回答:“我贡献xx”。

在设计概率图模型(PGM)时,作者选择不将其表示限制于数值概率,还结合了文本表示的概率,承认大型语言模型(LLMs)输入和输出的文本基础特性。PGM的主要目的是构建多方、多跳理解机制,以适应多智能体系统。

LLM与PGM的决策过程

对于多智能体中的LLM代理,推理过程被公式化为:

其中,P是提示,指引LLM进行下一步。PGM意识代理在PGM和游戏上下文的条件下做出决策,可以公式化为:

 其中,p^{decision}是提示,指导LLM在下一步中根据PGM和上下文做出决策。B_{1}B_{2}B_{3} 是在推理过程中获得的PGM。通过这种方式,PGM不仅增强了LLMs的推理能力,还为多智能体系统中的复杂决策提供了结构化的支持。

实验

实验设置为每个挑战者LLM与相同的防守者LLM (GPT-4)比赛,并根据胜率对他们进行排名。为了减少游戏过程中的随机性,作者将所有参与的llm的温度设置为0。

LLM排行榜

PGM增强性能

 

分析

实验结果表明,PGM意识代理能够在各个指标上不同程度地提升性能:

RQ1.不同大型语言模型(LLMs)中的概率图模型(PGM)如何帮助判断和推理?

以Llama-2-70B、GPT-4及其PGM-Aware版本在非变色龙角色中与GPT-4作为变色龙的对局为例:

结果显示这两种模型在未使用PGM时均未能赢得比赛,因为它们错误地投票给了“玩家1”作为变色龙。

PGM的作用

在引入PGM后,两个模型的游戏结果发生了变化,非变色龙成功获胜。游戏过程的细节显示,在前两轮中,Llama-2-70B提供的PGM均指向错误的变色龙(红色高亮部分所示),而“玩家2”才是真正的变色龙。在第三轮中,“玩家1”给出了正确的分析,成功将PGM调整为正确的变色龙指示。然而,分析内容却得出了相反的结论和解释,例如“更可疑”被解释为“更具体于秘密词”。此外,Llama-2-70B在游戏中还出现了一些幻觉,例如在“玩家1”已经给出线索后,分析仍然声称“玩家1尚未给出线索”。相比之下,GPT-4+PGM的分析则在结论和解释上保持一致,并且没有幻觉。根据这个例子,可以发现PGM能够通过清晰的分析帮助模型做出更好的判断,而PGM的效果也受到LLM能力的影响。模型越强大,其判断和推理的准确性就越高

RQ2: 在成本共享中,合作与成本共享之间有相关性吗?

如表所示,列出了每个博弈论场景中的胜率结果和几个重要指标。在成本共享的情况下,计算挑战者LLM在谈判后需要承担的平均最终成本。在谈判中,这是LLM驱动的代理在与其他代理达成协议时需要考虑的另一个目标。然而,这两个方面有时可能会相互矛盾。例如,当玩家尽可能降低自己的成本时,可能很难与其他玩家达成一致。LLM需要在这两个方面之间找到平衡。根据结果发现,在没有PGM增强的模型中,GPT-3.5-turbo在胜率上获胜,而GPT-4在成本上获胜,这表明这两个模型并没有很好地平衡。如果我们比较使用PGM的结果,GPT-4+PGM提高了胜率,同时保持了稍低的成本。GPT-3.5-turbo+PGM则同时提高了胜率并降低了成本。这证明了PGM增强的有效性,并表明GPT-3.5-turbo更倾向于合作,而GPT-4则强调降低成本。

RQ3: 理性与奖励之间的相关性

在囚徒困境和公共物品游戏中也出现了类似的现象,在这两个场景中,当玩家选择背叛作为囚徒或选择减少对公共池的贡献时,更有可能获胜。这种行为在我们的指标中被视为理性。当大多数玩家理性地进行游戏时,得分和回报将会大幅降低,从而接近著名的纳什均衡(Kreps, 1989)。

在囚徒困境中,如果比较GPT-3.5+PGMGPT-4+PGM,会发现GPT-4+PGM获胜更多,但得分较低,显示出GPT-4+PGM在决策上比GPT-3.5-turbo+PGM更理性。

在公共物品游戏中,发现所有使用PGM的模型都实现了更高的胜率,但回报较低,因为它们在这一场景中表现得更为理性。如果比较使用PGM和不使用PGM的模型的回报,可以观察到GPT-4模型的回报更高,这证明了GPT-4模型在这些游戏中更具战略性。

结论

本研究提出了一个专门用于评估大型语言模型(LLMs)在多智能体环境中的基准框架。该框架结合了多种场景,能够对LLMs在多智能体系统中的七项关键能力进行定量评估,包括判断、推理、欺骗、自我意识、合作、协调和理性。PGM的整合为LLMs在多智能体场景中提供了结构化的推理能力。 

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐