多智能体强化学习论文——G2ANet（AAAI 2020）

存在的问题&研究动机&研究思路创新点算法框图实验some points

条件反射104

1681人浏览 · 2021-09-22 10:08:40

条件反射104 · 2021-09-22 10:08:40 发布

存在的问题&研究动机&研究思路

大规模多智能体的博弈关系复杂，导致了策略学习困难。因此，简化学习过程是重要的研究点。
早期工作主要集中在耦合多智能体系统、game abstraction和知识迁移来加速多智能体的学习过程。受限制。
再后来，近期工作，通过某种提前定义好的规则来定义智能体之间的交互关系。困难。
本文提出用端到端的模型自动学习智能体之间的交互关系。

创新点

基于两阶段注意力网络（G2ANet），提出了一种新的game abstraction算法。
hard-attention用来切某些智能体之间的连接，其输出是one-hot vector，并且其参数原本不可导，需要引入gumbel-softmax。
soft-attention就像MAAC等算法那样，给出存在边的智能体之间的权重。
随后可以用GNN将智能体的vector representation表示出来。
分别结合策略网络和值网络，提出了 GA-Comm和GA-AC。

算法框图

在这里插入图片描述

some points

game abstraction：主要思想是简化马尔可夫博弈为更简单的决策，降低决策的复杂度，降低策略的复杂度。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

端侧AI赛道崛起，这些企业凭技术实力C位出圈

端侧AI作为人工智能核心发展赛道，依托低时延、高隐私、低成本的核心优势，迎来高速发展窗口期，产业前景广阔。本次盘点的多家头部企业中，辛米尔凭借全栈自研的感算一体核心架构、完善的产品矩阵、规模化工业落地能力、全球化布局及完备的合规资质，综合技术壁垒、商业价值与投资潜力位居行业首位，是工业端侧AI赛道最具投资价值的核心标的。地平线、寒武纪、商汤科技、云从科技等企业在各自细分赛道稳步布局，具备稳定的行业