❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

微信公众号|搜一搜:蚝油菜花
在这里插入图片描述

🚀 快速阅读

  1. Agent S 是一个基于图形用户界面(GUI)实现人机交互自动化的开源框架。
  2. 它通过经验增强的分层规划和多模态大型语言模型(MLLMs)提升任务自动化能力。
  3. 支持跨操作系统通用性,适用于办公自动化、网页交互、个人助理等多种应用场景。

正文(附运行示例)

Agent S 是什么

Agent S 是一个创新的代理框架,旨在通过图形用户界面(GUI)实现人机交互的自动化。简单来说,它就像一个虚拟助手,能够模拟人类的操作方式,使用鼠标和键盘直接与计算机互动,处理复杂的多步骤任务。Agent S 引入了一种叫做“经验增强的分层规划”的方法,结合在线网络知识和内部记忆,将复杂任务分解成更易管理的子任务,从而显著提升了基于多模态大型语言模型(MLLMs)的 GUI 代理的推理和控制能力。

Agent S 的主要功能

  • 自主交互与任务自动化:Agent S 可以通过 GUI 与计算机进行自主交互,自动化执行复杂的多步骤任务。
  • 经验增强的分层规划:利用在线网络知识和内部经验,将复杂任务分解成可执行的子任务。
  • 代理-计算机接口(ACI):提升基于 MLLMs 的 GUI 代理的推理和控制能力,确保精确交互。
  • 持续学习和记忆更新:通过自我评估和经验总结,不断更新叙事记忆和情景记忆。
  • 跨操作系统的通用性:在不同操作系统上都能良好运行,适应多种环境。

Agent S 的技术原理

  • 经验增强的分层规划:结合在线网络搜索和内部经验检索,使用叙述记忆和情景记忆来规划和执行任务。
  • 代理-计算机接口(ACI):作为一个抽象层,定义了与环境交互的范式,通过视觉输入和图像增强的可访问性树精确定位元素。
  • 叙事记忆与情景记忆:叙事记忆存储高层次任务经验,情景记忆则包含具体子任务执行的细节。
  • 自我评估与记忆更新:基于自我评估模块总结经验,并以文本奖励的形式更新内部记忆。
  • 多模态大型语言模型(MLLMs):处理和生成语言,理解环境变化,执行基于语言的原始动作。

如何运行 Agent S

安装步骤

  1. 克隆仓库:
    git clone https://github.com/simular-ai/Agent-S.git
    
  2. 创建虚拟环境并激活:
    conda create -n agent_s python=3.9
    conda activate agent_s
    
  3. 安装依赖:
    pip install -e .
    

设置 Perplexica

  1. 确保 Docker 已安装并运行。
  2. 克隆 Perplexica 仓库:
    git clone https://github.com/ItzCrazyKns/Perplexica.git
    
  3. 修改配置文件:
    • config.toml中填写必要的 API 密钥和 URL。
  4. 启动 Docker 容器:
    docker compose up -d
    

设置 Paddle-OCR 服务器

  1. 运行 OCR 服务器:
    cd agent_s
    python ocr_server.py
    
  2. 设置环境变量:
    export OCR_SERVER_ADDRESS=http://localhost:8000/ocr/
    

本地运行

在 MacOS 或 Ubuntu 上通过 OpenACI 运行:

python examples/cli_app.py --model <MODEL>

这将显示用户查询提示,可以输入查询与 Agent S 交互。

资源


❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

微信公众号|搜一搜:蚝油菜花

Logo

Agent 垂直技术社区,欢迎活跃、内容共建,欢迎商务合作。wx: diudiu5555

更多推荐