这篇文章不是单纯追 OpenAI 或 Claude 的新闻,而是想回答一个更实际的问题:当 Agent 从“会聊天”走向“会执行”,企业到底缺哪一层?

mateclaw agent信号

这两天发生了什么

先看 OpenAI。

OpenAI 在 5 月 29 日的 ChatGPT / Enterprise Release Notes 里更新了 Codex:Codex Computer Use 支持 Windows,符合条件的用户可以让 Codex 在 Windows 应用里“看、点、输入”。更关键的是,远程控制也扩到了 Windows:用户可以从 ChatGPT iOS / Android,或者 Mac 上的 Codex,查看 Windows 机器上的任务进度、回应提示、继续指挥任务。Windows 机器仍然保存项目文件、shell、应用服务和本地上下文。

同一天的 Enterprise / Edu 说明里,OpenAI 还强调了企业默认策略:Windows Computer Use 和 remote control 对 Enterprise 用户默认关闭,需要通过账号代表开通。这句话很重要,因为它说明 Agent 的问题不再只是“能不能执行”,而是“谁允许它执行、在哪台机器执行、执行到哪里要停下来等人确认”。

再看 5 月 28 日的 Workspace Agents 更新。OpenAI 给 ChatGPT workspace agents 增加了模型和 reasoning effort 控制、按角色控制发布权限、引导式 Agent 创建、语音输出、Slack 线程回复增强;同时还推出 GitHub Enterprise、Snowflake、Databricks 的 App Template。管理员可以配置 OAuth、回调 URL、webhook、managed MCP server URL、workspace access controls,发布后还能管理 role access、action controls 和 action confirmation。

Claude 这边,Anthropic 在 5 月 28 日发布 Claude Opus 4.8。模型能力提升当然重要,但对 Agent 产品更关键的是三点:

  1. Claude Code 推出 Dynamic Workflows,可以在一个会话里规划任务、启动数百个并行 subagents,并在回报用户前校验结果。
  2. claude.ai / Cowork 增加 effort control,用户可以在速度、成本和质量之间显式选择。
  3. Messages API 支持在 messages 数组里插入 system 条目,开发者可以在长任务中途更新权限、token 预算或环境上下文,而不破坏 prompt cache。

这些信息放在一起,趋势已经很清楚:Agent 正在从“单轮问答工具”变成“长期运行的执行系统”。

真正变化:Agent 开始接近远程员工

过去我们评价一个 Agent,通常问:

  • 模型聪不聪明?
  • 会不会调用工具?
  • 会不会写代码?
  • 能不能接 MCP?

但最近两天 OpenAI 和 Claude 的更新,把问题推到了另一个层面:

  • Agent 能操作真实桌面,谁来限制它能点什么?
  • Agent 能远程继续跑,手机接管时状态怎么保存?
  • Agent 能启动一堆 subagents,预算、权限和失败边界怎么管?
  • Agent 能进 Slack、GitHub、Snowflake、Databricks,企业管理员怎么审批动作?
  • Agent 能在任务中途变更环境和权限,审计日志怎么留下?

所以我更愿意把现在的 Agent 产品分成两层:

第一层是模型能力。比如 Opus 4.8、Codex、各种 reasoning 模型。

第二层是运行时能力。也就是把模型放进企业环境后,围绕它建立工具、权限、审批、审计、记忆、知识、渠道和工作区。

很多产品只讲第一层。MateClaw 更适合讲第二层。

MateClaw Agent Runtime

MateClaw 能承接哪些点

MateClaw 的定位不是再造一个 Claude Code,也不是再造一个 Codex。它更像是 Java / Spring Boot 企业体系里的 Agent Runtime。

从源码看,MateClaw 这条线已经很明确。

1. 长任务不是靠“等”,而是靠 Goal 生命周期

Codex 的远程控制说明了一个事实:Agent 任务会变长,用户不会一直坐在电脑前盯着。

MateClaw 里的 GoalServiceImpl 做的是另一种表达:给会话绑定明确目标,记录预算、事件、状态、完成评估和后续记忆沉淀。它的关键点不只是“有一个目标”,而是目标有生命周期,有并发保护,有审计事件,有完成后的记忆写入。

这就适合企业里的真实任务:不是“帮我想想”,而是“这件事做到什么条件算完成,过程中花了多少轮、多少模型调用,最后谁确认完成”。

2. 多 Agent 不只是热闹,而是可控的委派

Claude Dynamic Workflows 最吸引人的地方是并行 subagents。但在企业系统里,subagent 不应该无限递归、无限创建、无限写共享记忆。

MateClaw 的 DelegateAgentTool 已经把这些问题产品化了一层:支持单 Agent 委派、并行委派、异步任务、父子会话、SSE 进度回传,同时对子 Agent 设定默认 deny list,避免递归委派、随意写长期记忆、随意修改父任务目标等问题。

这就是“多 Agent 编排”和“多 Agent 乱跑”的区别。

3. 工具执行必须带审批屏障

OpenAI 的 Windows Computer Use 让 Agent 可以操作真实应用,这个方向很有想象力,也很容易带来企业安全问题。

MateClaw 的 ToolExecutionExecutor 做了一个很关键的底层抽象:工具调用不是模型一说就执行,而是先过 JSON 校验、ToolGuard、审批判断、并发安全分段,再执行。危险动作会形成审批屏障,后续工具不会越过它继续跑。

这点对企业部署非常关键。因为真正让 IT 部门放心的不是“模型看起来很聪明”,而是“危险动作默认会停下来,谁批准、何时批准、批准了什么都能追溯”。

4. 企业知识不是上传文件,而是持续更新的 Wiki 流水线

OpenAI Workspace Agents 这次强调了 workspace、Slack、App Template、GitHub Enterprise、Snowflake、Databricks,本质是在说:Agent 必须嵌进企业已有系统,而不是守着一个孤立聊天框。

MateClaw 最近提交里,Wiki 是一条很明显的主线:

  • pluggable ingest-source SPI;
  • source-watcher status API;
  • pipeline definition CRUD / YAML API;
  • page-created trigger;
  • per-agent pageType permission;
  • stale page propagation;
  • wiki_update_page 和 wiki_stale_pages 工具。

这意味着 MateClaw 的知识库不是一次性 RAG 文件夹,而是更接近企业知识操作系统:来源可以接入,页面可以分层,权限可以按 Agent 配置,内容变更可以触发流水线,旧知识可以标记 stale。

对企业 Agent 来说,这比“上传几个 PDF 让模型问答”更接近生产环境。

为什么这篇文章要强调 Java / Spring Boot

现在 Agent 工具很多,但大量工具默认面向个人开发者、CLI 用户、前端全栈项目或云端平台。

企业里还有另一种现实:

  • 后端主要是 Java;
  • 审计、权限、审批、组织架构已经在 Spring 体系里;
  • 内网系统、数据库、工单、知识库、IM 都要接;
  • 部署要自托管;
  • 安全团队不希望所有动作都绕到第三方 SaaS;
  • 运维希望日志、指标、权限和故障处理能进现有体系。

MateClaw 的优势就在这里:它不是把 Agent 做成一个“个人电脑上的聪明助手”,而是把 Agent 做成一个可以进入企业后端体系的运行时。

GitHub 地址:https://github.com/matevip/mateclaw
在线文档:https://claw.mate.vip/docs
在线演示:https://claw-demo.mate.vip

企业 Agent 应该怎样跑起来

从 OpenAI / Claude 更新看 MateClaw 的产品机会

如果只看模型榜单,这两天的新闻可以简单理解成:Claude 变强了,OpenAI 的 Codex 又多了一个平台。

但如果从企业 Agent 的角度看,信号更明确:

第一,Agent 会越来越靠近真实工作环境

OpenAI 把 Codex Computer Use 推到 Windows,不只是平台覆盖,而是让 Agent 进入真正的办公桌面和开发桌面。企业内部大量流程仍然发生在 Windows、浏览器、IDE、内部管理系统、表格和 IM 里。

MateClaw 可以沿着这个方向继续强化桌面端、渠道接入、任务状态镜像和人工接管。

第二,Agent 会越来越多地并行工作

Claude Dynamic Workflows 把“多个 subagents 并发处理大任务”推到了台前。这个方向一定会继续发展,但它也会带来预算失控、上下文污染、权限放大和结果校验问题。

MateClaw 已经有并行委派、子会话隔离、denied tools、进度回传和 Goal 预算,适合继续把“多 Agent 编排”做成企业可观察、可限制、可复盘的功能。

第三,Agent 会越来越依赖企业知识和业务系统

OpenAI Workspace Agents 的 App Template、Slack 线程、GitHub Enterprise、Snowflake、Databricks 指向同一个方向:Agent 要进入组织协作流。

MateClaw 的 Wiki Pipeline、MCP Server 管理、工作区权限、多渠道适配,正好对应这条线。尤其是 Java 企业项目里,很多“能不能用”的问题不在模型,而在系统接入、权限边界和数据治理。

第四,Agent 的卖点会从“更聪明”转向“更可信”

Claude Opus 4.8 强调 honesty、uncertainty、工具调用效率和长任务可靠性;OpenAI 强调企业默认关闭远程控制、管理员可控的 workspace apps 和 action confirmation。

这说明市场已经开始承认:Agent 的下一阶段,不只是能力竞赛,也是治理竞赛。

MateClaw 要讲清楚的,正是这句话:企业真正需要的不是一个更会聊天的机器人,而是一个可部署、可接入、可审批、可审计、可持续运行的 Agent Runtime。

结语

OpenAI 这两天把 Agent 推向 Windows 桌面和远程接管,Claude 把 Agent 推向动态工作流和数百个 subagents。两家公司走的路径不同,但方向一致:Agent 正在从聊天产品,变成能进入真实工作环境的执行系统。

而一旦 Agent 开始执行真实任务,问题就不再只是模型能力。

企业要问的是:

  • 谁给它权限?
  • 它能调用哪些工具?
  • 它能不能并行派活?
  • 出错后怎么停?
  • 人怎么接管?
  • 审计怎么查?
  • 知识怎么持续更新?
  • 任务完成后状态怎么沉淀?

这就是 MateClaw 值得被关注的地方。

它不是只追一个模型热点,而是在做 Java 企业环境里真正缺的那一层:Agent Runtime。

参考资料

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐