让 AI 来使用计算机！Agent S：基于 GUI 的人机交互自动化解决方案

Agent S 是基于 GUI 的人机交互自动化框架，通过经验增强的分层规划和多模态语言模型提升任务自动化能力，支持跨操作系统，适用于办公自动化等多种场景。

蚝油菜花

1346人浏览 · 2024-10-20 08:45:58

蚝油菜花 · 2024-10-20 08:45:58 发布

❤️ 如果你也关注大模型与 AI 的发展现状，且对大模型应用开发非常感兴趣，我会快速跟你分享最新的感兴趣的 AI 应用和热点信息，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

微信公众号｜搜一搜：蚝油菜花
在这里插入图片描述

🚀 快速阅读

Agent S 是一个基于图形用户界面（GUI）实现人机交互自动化的开源框架。
它通过经验增强的分层规划和多模态大型语言模型（MLLMs）提升任务自动化能力。
支持跨操作系统通用性，适用于办公自动化、网页交互、个人助理等多种应用场景。

正文（附运行示例）

Agent S 是什么

Agent S 是一个创新的代理框架，旨在通过图形用户界面（GUI）实现人机交互的自动化。简单来说，它就像一个虚拟助手，能够模拟人类的操作方式，使用鼠标和键盘直接与计算机互动，处理复杂的多步骤任务。Agent S 引入了一种叫做“经验增强的分层规划”的方法，结合在线网络知识和内部记忆，将复杂任务分解成更易管理的子任务，从而显著提升了基于多模态大型语言模型（MLLMs）的 GUI 代理的推理和控制能力。

Agent S 的主要功能

自主交互与任务自动化：Agent S 可以通过 GUI 与计算机进行自主交互，自动化执行复杂的多步骤任务。
经验增强的分层规划：利用在线网络知识和内部经验，将复杂任务分解成可执行的子任务。
代理-计算机接口（ACI）：提升基于 MLLMs 的 GUI 代理的推理和控制能力，确保精确交互。
持续学习和记忆更新：通过自我评估和经验总结，不断更新叙事记忆和情景记忆。
跨操作系统的通用性：在不同操作系统上都能良好运行，适应多种环境。

Agent S 的技术原理

经验增强的分层规划：结合在线网络搜索和内部经验检索，使用叙述记忆和情景记忆来规划和执行任务。
代理-计算机接口（ACI）：作为一个抽象层，定义了与环境交互的范式，通过视觉输入和图像增强的可访问性树精确定位元素。
叙事记忆与情景记忆：叙事记忆存储高层次任务经验，情景记忆则包含具体子任务执行的细节。
自我评估与记忆更新：基于自我评估模块总结经验，并以文本奖励的形式更新内部记忆。
多模态大型语言模型（MLLMs）：处理和生成语言，理解环境变化，执行基于语言的原始动作。

如何运行 Agent S

安装步骤

克隆仓库：

git clone https://github.com/simular-ai/Agent-S.git

创建虚拟环境并激活：

conda create -n agent_s python=3.9
conda activate agent_s

安装依赖：
```
pip install -e .
```

设置 Perplexica

确保 Docker 已安装并运行。

克隆 Perplexica 仓库：

git clone https://github.com/ItzCrazyKns/Perplexica.git

修改配置文件：
- config.toml中填写必要的 API 密钥和 URL。
启动 Docker 容器：
```
docker compose up -d
```

设置 Paddle-OCR 服务器

运行 OCR 服务器：
```
cd agent_s
python ocr_server.py
```

设置环境变量：

export OCR_SERVER_ADDRESS=http://localhost:8000/ocr/

本地运行

在 MacOS 或 Ubuntu 上通过 OpenACI 运行：

python examples/cli_app.py --model <MODEL>

这将显示用户查询提示，可以输入查询与 Agent S 交互。

资源

项目官网：simular.ai/agent-s
GitHub 仓库：github.com/simular-ai/Agent-S
arXiv 技术论文：arxiv.org/abs/2410.08164
Perplexica 仓库：github.com/ItzCrazyKns/Perplexica

微信公众号｜搜一搜：蚝油菜花

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建，欢迎商务合作。wx: diudiu5555

更多推荐

首款折叠iPhone或定价2300美元；百川智能两位联合创始人被曝离职；Manus启用.cn域名 | 极客头条

AI Agent技术社区

开源模型应用落地-LangGraph101-ToolNode-智能工具调度的核心枢纽

AI Agent技术社区

【AI落地应用实战】大模型加速器2.0：基于 ChatDoc + TextIn ParseX + ACGE的RAG知识库问答系统

AI Agent技术社区

所有评论(0)

查看更多评论

蚝油菜花

@qq_19841021

已为社区贡献19条内容