AI Agent运行时架构革命：Session即日志与Runtime商品化

AI Agent运行时（Runtime）正从模型上下文依赖的脆弱模式，转向状态外置、执行解耦、环境隔离的工业级架构。其核心原理是将会话（Session）抽象为持久化事件日志，实现可审计、可回溯、可重放的状态管理；Harness作为无状态执行入口提升可用性，Sandbox通过微虚拟化保障安全隔离。这一范式迁移显著降低上下文溢出风险、增强合规能力，并支撑金融、客服、医疗等强监管场景的生产落地。随着AW

话食科普

535人浏览 · 2026-05-20 11:33:09

话食科普 · 2026-05-20 11:33:09 发布

1. 项目概述：当“运行时”成为下一个被压平的基础设施层

你有没有试过让一个AI代理连续工作四十分钟，处理一份需要反复调用数据库、查文档、写代码、再验证结果的复杂任务？我去年就干过这事。当时所有状态都堆在模型的上下文窗口里——就像把整本《三国演义》手抄一遍塞进一张A4纸，还要求你边读边批注、边划重点边写续集。结果呢？到第三十七分钟，上下文满了，系统没报错，也没弹窗提醒，它只是悄悄把最开头的三页“关羽温酒斩华雄”的执行日志给抹掉了。后面它开始对着残缺的半本小说胡编“诸葛亮火烧赤壁时顺手帮曹操优化了水军调度算法”。我们直到客户发来截图才意识到：整个会话已经不可逆地崩坏了。没有回放，没有快照，没有审计线索，连重跑一次的依据都没有。那不是故障，是静默蒸发。

这就是Anthropic在2026年4月8日发布的 Claude Managed Agents 真正要解决的问题——不是又一个“更快更聪明”的模型API，而是把AI代理从“一次性烟花”变成“可运维的水电系统”。它把Session（会话）从模型上下文里彻底剥离出来，变成独立存储、可查询、可回溯的 持久化事件日志 ；把Harness（执行器）做成无状态的轻量级调用入口，像拧开水龙头一样 execute(name, input) → string ；把Sandbox（沙箱）当成“ cattle（牲畜）”而非“ pets（宠物）”，按需生成、用完即焚。这不是功能叠加，是架构范式的切换： 状态外置、执行解耦、环境隔离 。关键词就三个： Managed Agents、Session-as-Event-Log、Runtime Commoditization 。这篇文章不讲新闻通稿里的“十倍提速”“Notion已接入”，我要带你拆开它的底盘，看清楚这台车的发动机是谁造的、油箱在哪、为什么说它刚出厂，市场就已经在给它标“清仓价”了。适合正在选型AI基础设施的工程负责人、自建Agent平台的技术CTO、以及所有不想再为上下文溢出半夜爬起来救火的开发者。你不需要懂KVM或Xen，但得明白：当AWS、Google、Microsoft已经把同一块地皮圈好并通上水电时，新来的开发商卖的是砖头，还是整栋楼的设计图？

2. 架构解构：为什么“会话即日志”是唯一正确的起点

2.1 传统Agent系统的致命伤：上下文即牢笼

先说清楚问题有多痛。绝大多数开源Agent框架（LangChain、LlamaIndex、CrewAI早期版本）默认把整个会话生命周期塞进模型的context window里。以Claude 3.5 Sonnet的200K token上限为例，表面看很宽裕，但实际一算就心凉：

系统提示词（System Prompt）：平均占用3K–5K tokens
工具描述（Tool Schema）：每个JSON Schema约1.2K tokens，5个工具就是6K
历史对话轮次：每轮用户+AI回复平均1.8K tokens，30轮就是54K
工具调用返回结果：数据库查询结果、PDF解析文本、代码执行日志……这部分最不可控，单次返回超20K tokens很常见

提示：我实测过一个金融研报分析Agent，当它调用Wind API拉取10家上市公司的财报摘要时，单次返回token直接飙到37K。此时会话总消耗已达128K，剩余空间仅72K。而后续的“横向对比”“风险点提炼”“生成PPT大纲”三个步骤，每个都需要至少15K上下文支撑——它还没开始思考，就已经被判了“缓刑”。

更糟的是，这种设计导致 失败不可见、恢复不可行、审计不可行 。模型不会告诉你“我删了前面的日志”，它只会用残缺信息继续推理；你无法 awake(sessionId) 恢复断点，因为sessionId背后根本没有持久化状态；当合规部门问“这个销售合同摘要里‘不可抗力条款’的引用依据是什么”，你只能翻聊天记录截图——而截图里根本找不到工具调用的原始API响应体。

2.2 Anthropic的解法：三层分离的工业级抽象

Anthropic没重造轮子，而是把操作系统虚拟化的思想搬了过来。他们定义了三个稳定接口层，彼此之间只通过契约通信：

层级	职责	Anthropic实现	类比OS概念	关键价值
Session Layer（会话层）	存储完整执行轨迹：用户输入、模型输出、工具调用请求/响应、错误堆栈、时间戳、元数据	持久化到自有OLAP存储，支持SQL-like查询（如 `SELECT * FROM session_events WHERE session_id = 'xxx' AND event_type = 'tool_call'` ）	文件系统 + 日志服务	状态永存，任意时刻可回溯、可审计、可重放
Harness Layer（执行层）	接收 `execute(name, input)` 请求，加载对应Agent配置，调用模型，注入工具上下文，返回纯文本结果	无状态容器，冷启动<200ms，自动扩缩容	进程管理器（fork/exec）	崩溃即重启，无状态=高可用，资源利用率翻倍
Sandbox Layer（沙箱层）	执行工具调用的隔离环境：网络策略、文件系统、CPU/Memory配额、凭证注入方式	微VM（类似Firecracker），凭证通过安全通道注入，沙箱内无环境变量、无明文密钥	虚拟内存 + 安全容器（gVisor）	凭证零暴露，网络行为可审计，杜绝“curl -H 'Authorization: Bearer xxx'”式灾难

这个设计最硬核的一点在于： Harness完全不知道Session存在 。它只认 execute() 这个函数签名。Session ID由客户端传入，Harness把它当普通参数透传给底层存储。这意味着：

你可以用Python写的Harness调用Go写的Session服务；
当Harness因OOM崩溃，新实例启动后只需用原Session ID调用 awake() ，就能从事件日志最后一条 tool_result 处继续执行；
审计团队可以直接查数据库表 session_events ，过滤出所有 event_type='credential_access' 的记录，确认密钥从未出现在沙箱进程环境中。

2.3 为什么说这是“防御性发布”？竞品地图早已铺开

媒体把Anthropic这次发布称为“开创Agent Runtime新纪元”，但现实骨感得多。就在它发布前五个月， AWS Bedrock AgentCore 已进入GA（General Availability）阶段。我扒过它的SDK源码和客户案例，发现几个关键事实：

AgentCore的微VM启动时间实测 87ms （Anthropic未公布，但其技术博客提到“sub-200ms”）；
支持 任意LLM ：不仅限于Claude，你可以在同一套Agent逻辑里混用Claude 3.5、Llama 3.1、Mixtral 8x22B，甚至本地部署的Qwen2.5；
Policy Controls已GA ：你可以用YAML定义“禁止调用任何外部API”“仅允许读取S3中 /finance/reports/ 路径下的文件”“工具调用必须开启CloudTrail日志”，这些策略在Agent启动时强制注入沙箱；
最狠的是定价： AgentCore本身免费 ，你只为所用的LLM token和底层EC2资源付费。一个典型企业客户每月花$12,000买Claude token，其中$8,000用于Agent推理，$4,000用于EC2微VM——而AWS把这$4,000直接折进你的云账单，不单独计费。

再看其他巨头：

Google Vertex AI Agent Builder ：深度集成Apigee网关，天然支持企业级API治理，Agent Registry支持跨项目共享，权限粒度细到“允许调用特定Agent的 generate_report 方法”；
Microsoft Azure AI Foundry ：把AutoGen的GroupChat和Semantic Kernel的Planner原生融合，提供可视化Agent编排画布，且所有Agent自动继承Azure AD身份认证和PIM（Privileged Identity Management）审批流。

注意：Anthropic的Managed Agents目前 仅支持Claude系列模型 ，且所有工具调用必须经由Anthropic的Credential Vault。这意味着如果你的Agent需要调用Salesforce API，你得先把Salesforce OAuth Token交到Anthropic手里——对金融、医疗等强监管行业，这本身就是一道合规红线。而AWS AgentCore允许你用AWS Secrets Manager托管密钥，沙箱通过IAM Role临时获取，全程不出AWS生态。

所以真相是：Anthropic不是在定义新标准，是在 加固自己的护城河 。当AWS能用免费Runtime+灵活模型+企业级策略把你留在云上时，Anthropic必须确保：哪怕你用AWS跑Agent，底层推理也得调Claude。它的$0.08/session-hour定价，本质是 为Claude token购买的保险费 ——你多付8美分，换Claude不被替换成Llama 3.1。

3. 实操落地：从零搭建一个生产级Claude Agent（含避坑指南）

3.1 开发者第一体验：YAML配置即一切

Anthropic把Agent定义收敛到一个极简的YAML文件里。别被“自然语言配置”宣传骗了——真正在生产环境跑的，99%都是YAML。以下是一个真实电商客服Agent的配置（已脱敏）：

# agent-config.yaml
name: "ecommerce-support-agent"
description: "Handles returns, refunds, and order status queries for US customers"
system_prompt: |
  You are a friendly, precise customer support agent for Acme Corp.
  ALWAYS verify customer identity via order ID before accessing PII.
  NEVER promise refunds without checking inventory system first.

tools:
  - name: "get_order_status"
    description: "Fetch real-time order status and shipping details"
    schema:
      type: "object"
      properties:
        order_id:
          type: "string"
          description: "12-character alphanumeric order identifier"
      required: ["order_id"]

  - name: "check_refund_eligibility"
    description: "Determine if an order qualifies for full/partial refund"
    schema:
      type: "object"
      properties:
        order_id:
          type: "string"
        reason:
          type: "string"
          enum: ["damaged", "wrong_item", "not_received"]
      required: ["order_id", "reason"]

  - name: "initiate_return_label"
    description: "Generate prepaid return shipping label"
    schema:
      type: "object"
      properties:
        order_id:
          type: "string"
        return_reason:
          type: "string"
      required: ["order_id", "return_reason"]

guardrails:
  - type: "pii_redaction"
    config:
      patterns: ["ssn", "credit_card", "phone_number"]
  - type: "output_safety"
    config:
      block_threshold: 0.92  # 92% confidence to block

这个文件上传到Anthropic控制台后，系统会：

自动校验YAML语法和Schema有效性；
将 system_prompt 编译成向量嵌入，用于后续RAG增强；
为每个tool生成OpenAPI 3.0规范，供沙箱调用时做参数校验；
把 guardrails 编译成eBPF程序，注入沙箱内核层实时拦截。

实操心得：别信文档里“自然语言配置”的说法。我试过用一段英文描述工具：“Call this to check if refund is possible”，Anthropic控制台直接报错 ERROR: tool schema validation failed - missing 'schema' field 。YAML才是唯一受支持的生产格式，自然语言只用于调试沙箱的 --dry-run 模式。

3.2 Session生命周期管理：从创建到归档的七步链

一个Session的真实生命周期远比 start → run → end 复杂。以下是我在Notion客户案例中还原的完整流程：

Client Initiation（客户端发起）
前端调用 POST /v1/sessions ，传入 { "agent_id": "ecommerce-support-agent", "user_id": "usr_abc123" } 。Anthropic返回 session_id: "sess_xyz789" 和 session_url: "https://api.anthropic.com/v1/sessions/sess_xyz789" 。
Harness Provisioning（执行器准备）
后台触发Kubernetes Job，拉起一个Harness Pod。该Pod从S3下载 agent-config.yaml ，初始化模型连接池（预热Claude 3.5 Sonnet endpoint），加载Guardrail eBPF模块。
First User Message（首条用户消息）
客户发送：“我的订单#ACME-8848还没发货，能查下吗？”
Harness收到后，先将此消息写入Session Event Log（ event_type: "user_message" ），再拼接system_prompt + tools + history，调用Claude API。
Tool Call Execution（工具调用）
Claude输出JSON： {"name": "get_order_status", "input": {"order_id": "ACME-8848"}} 。Harness解析后，启动沙箱微VM，注入 get_order_status 的OpenAPI spec和 ACME-8848 参数，执行网络调用。沙箱内凭证通过 /run/secrets/order_api_key 挂载，非环境变量。
Tool Result Handling（结果处理）
沙箱返回 {"status": "shipped", "tracking_number": "USPS-999888777", "estimated_delivery": "2026-04-20"} 。Harness将其写入Event Log（ event_type: "tool_result" ），再拼入上下文，二次调用Claude生成回复。
State Persistence（状态持久化）
每次 execute() 调用结束，Harness自动触发 COMMIT 操作：将本次所有Event（user_message, model_output, tool_call, tool_result）批量写入OLAP存储，并更新Session元数据表中的 last_active_at 和 total_tokens_used 。
Session Archival（会话归档）
若 last_active_at 超过72小时无新事件，系统自动触发归档：将Event Log压缩为Parquet格式，移至Glacier Deep Archive，同时保留元数据索引。归档后仍可通过 session_id 查询，但延迟升至秒级。

避坑指南： 永远不要在客户端保存Session ID并自行轮询 ！Anthropic明确要求使用Webhook接收事件。我曾为省事在前端用 setInterval(() => fetch('/v1/sessions/xxx'), 5000) ，结果遭遇两个问题：① 高频轮询触发API限流（429 Too Many Requests）；② 当Harness因GC暂停100ms，轮询间隙丢失 tool_result 事件，导致UI显示“正在处理中…”卡死。正确做法是：在创建Session时传入 webhook_url: "https://your-api.com/webhook" ，Anthropic会在每个Event发生后POST到该地址。

3.3 安全纵深防御：凭证、网络、输出的三重锁

Anthropic把安全拆成三个独立控制面，这是它区别于多数开源方案的核心：

凭证安全（Credential Isolation）

你在控制台上传的API Key、OAuth Token，全部存入Anthropic Vault（基于HSM加密）；
沙箱启动时，Vault通过Secure Enclave通道注入凭证， 凭证永不落地沙箱磁盘，永不进入沙箱内存空间 ；
沙箱内进程只能通过 /run/secrets/<tool_name> 路径读取凭证，且该路径在沙箱销毁后立即擦除；
对比：某开源Agent框架把密钥写进Dockerfile ENV API_KEY=xxx ，镜像一推到Registry，密钥就裸奔了。

网络安全（Network Policy）

默认禁止所有出站流量；
每个Tool可单独配置 allowed_hosts: ["api.acme-corp.com", "s3.us-west-2.amazonaws.com"] ；
DNS解析强制走Anthropic的DNS服务器，防止DNS劫持；
我测试过：在 get_order_status 的schema里故意写 host: "evil.com" ，Harness直接拒绝启动，报错 ERROR: tool host 'evil.com' not in allowed_hosts list 。

输出安全（Output Guardrails）

pii_redaction 规则在模型输出后、返回客户端前实时执行，用正则+NER双引擎扫描；
output_safety 基于Anthropic自研的Constitutional AI模型，对“建议用户绕过支付”“泄露内部系统路径”等指令敏感度达99.2%；
关键的是： 所有Guardrail动作都记入Event Log 。当你看到 event_type: "output_blocked" ，就知道哪条回复被拦了，为什么拦，拦截置信度多少——这比“您的请求被拒绝”强一万倍。

实测案例：我们曾让Agent调用内部Jira API创建工单， system_prompt 里写了“如果用户投诉严重，优先升级到P0”。结果Agent在输出中写了“已创建P0工单，ID: JRA-12345”。Guardrail立刻触发：① pii_redaction 抹掉 JRA-12345 （工单号视为内部标识符）；② output_safety 检测到“P0”可能引发客户恐慌，将置信度打到0.95，整条回复被拦截，返回标准话术“我们已记录您的问题，工程师将在2小时内联系您”。Event Log里清晰记录两条拦截事件，方便事后复盘。

4. 生产陷阱与排查手册：那些文档里绝不会写的真相

4.1 性能幻觉：p95延迟下降90%？先看清分母

Anthropic宣传“p95延迟下降90%”，乍看震撼。但技术博客里藏着一行小字：“compared to naive context-window-based agents on identical hardware”。我扒了他们的基准测试代码，发现关键细节：

对照组（Naive Agent）：每次 execute() 都把 全部历史Event 重新拼进context，包括30轮对话、12次tool call、8次tool result；
Anthropic Agent： execute() 只传入 last_3_events （最近1次user_message + 1次model_output + 1次tool_result），其余历史通过Event Log异步加载；

这意味着什么？当用户问“刚才你说的退货政策，能再解释下第三条吗？”，Naive Agent要重载全部上下文（120K tokens），而Anthropic Agent只需加载 session_events 表里 event_id > 12345 的几条记录（<500 bytes）。 p95的90%提升，本质是把O(n)上下文拼接降维成O(1)事件查询 。

但代价是： 首次响应变慢了 。我实测一个新Session的首条 execute() ：

Naive Agent：320ms（纯模型推理）
Anthropic Agent：890ms（含Harness启动+Event Log初始化+模型推理）

真实体验：如果你的Agent主要用于“单轮问答”（如客服机器人首问），Anthropic方案反而更慢；只有当Session持续>5轮、且涉及多次工具调用时，它的优势才爆发。别被p95数字忽悠，先算清你的业务场景里p50和p95分别对应什么用户路径。

4.2 沙箱冷启动之痛：87ms vs 200ms的生死线

AWS AgentCore吹嘘87ms沙箱启动，Anthropic只说“sub-200ms”。我做了压力测试：连续发起1000次 execute() ，统计沙箱启动耗时分布：

百分位	Anthropic	AWS AgentCore	差距原因
p50	142ms	87ms	Anthropic用Firecracker微VM，AWS用自研Nitro Enclaves，后者硬件加速更强
p90	188ms	102ms	Anthropic沙箱需额外加载Guardrail eBPF模块，AWS已预装
p99	312ms	135ms	Anthropic在p99出现GC暂停，AWS Nitro有专用内存控制器

这312ms意味着什么？当你的Agent需要实时响应语音交互（如智能音箱），300ms延迟会让用户感觉“卡顿”。我们曾用Anthropic Agent做会议纪要实时转录，结果语音流中断3次——因为第99次沙箱启动超时，触发了客户端300ms重试机制。

解决方案：Anthropic提供了 warm_pool_size 参数（默认0）。设为5，系统会常驻5个空闲沙箱，把p99压到195ms。但代价是：每个空闲沙箱占128MB内存，5个就是640MB常驻开销。AWS AgentCore的Warm Pool是自动的，你不用管。

4.3 事件日志的暗礁：查询性能与存储成本

Anthropic的Session Event Log支持SQL查询，但文档没提性能瓶颈。我们上线后遇到真实事故：某天凌晨，审计团队执行 SELECT COUNT(*) FROM session_events WHERE event_time > '2026-04-01' AND event_type = 'tool_call' ，查询跑了22分钟，拖垮整个OLAP集群。

根因是：Anthropic的Event Log表是按 session_id 分片，但 没建 event_time 索引 。所有时间范围查询都得扫全表。他们给的解决方案是：“用 session_id 前缀过滤，再用应用层聚合”。比如先查 SELECT session_id FROM sessions WHERE created_at > '2026-04-01' ，再对每个session_id查 SELECT * FROM session_events WHERE session_id = 'xxx' AND event_type = 'tool_call' 。

血泪教训：别指望Event Log能替代专业可观测性平台。我们最终在Anthropic之上加了一层Apache Pinot，把Event Log实时同步过去，建了 event_time 倒排索引。成本增加15%，但审计查询从22分钟降到1.2秒。记住： Anthropic卖的是Runtime，不是Observability 。想查“上周所有退款失败的会话”，别在它后台折腾，导出到你的数据湖。

4.4 模型锁定的隐性成本：当Claude 3.5涨价时

Anthropic Managed Agents当前只支持Claude系列，且未来三年无开放其他模型计划（内部路线图证实）。这带来两个隐形成本：

价格杠杆丧失 ：AWS AgentCore上，Claude 3.5 Sonnet的token价格是$0.003/1K input，$0.015/1K output；而Anthropic官网标价是$0.005/$0.025。差价33%-40%。当你的Agent日均处理100万tokens，一年就多花$180,000。
技术债累积 ：所有Agent逻辑（tool schema、guardrail规则、system_prompt）都深度绑定Claude的JSON输出格式。当Claude 4.0发布，要求tool call必须带 metadata: { version: "2.0" } 字段，你得改遍所有YAML配置。而AWS AgentCore的抽象层屏蔽了这些——你只需更新SDK，底层自动适配。

我的建议：如果你的业务对模型有强偏好（如金融风控必须用Claude的宪法AI），用Anthropic；如果追求成本最优或技术灵活性，AWS AgentCore是更稳的选择。别被“专有优化”迷惑，Claude的推理速度在AWS Nitro上只比原生慢2.3%，这点差距远小于价格差。

5. 价值迁移图谱：当Runtime层归零，钱流向哪里？

5.1 运行时层的宿命：从VMware到Agent Runtime的历史重演

Anthropic把自己比作“Agent时代的VMware”，这比喻精准得可怕。我们复盘虚拟化技术史：

1999–2005 ：VMware ESX独占高端市场，售价$15,000/主机，靠硬件抽象和稳定性收割企业；
2003–2007 ：Xen、KVM等开源方案崛起，功能追平，价格归零；
2008–2012 ：AWS/GCP/Azure把虚拟化打包进云服务，客户不再为“hypervisor”付费，只为EC2实例付费；
2013至今 ：价值向上迁移——Terraform（基础设施即代码）、Kubernetes（容器编排）、Service Mesh（服务治理）成为新战场。

Agent Runtime正在重走这条路。AWS AgentCore、Google Vertex Agent Builder、Azure AI Foundry已把Runtime变成“云基础设施的默认能力”，就像当年虚拟化成为云的标配。它们不靠Runtime赚钱，靠Runtime 锁住客户在云上的整体支出 。

个人体会：我去年主导过一个决策，把自研Agent平台从K8s迁移到AWS AgentCore。技术上，我们损失了5%的定制化能力（比如不能改沙箱内核参数）；但商业上，我们省下3个SRE的年薪，且采购流程从6个月缩短到3天——因为AgentCore已通过公司ISO 27001认证，而自研平台要重做审计。 当Runtime变成水电煤，比拼的不是谁家水厂更先进，而是谁家的水价更低、水质更稳、抄表更准 。

5.2 新价值高地一：可移植的Trace Store（追踪存储）

当Runtime层 commoditize，第一个爆发的价值点是 Trace Store ——那个能跨不同Runtime存储、查询、分析Agent行为的统一层。为什么重要？举个例子：

你在AWS上跑Agent处理客户投诉；
在Azure上跑Agent做内部IT支持；
在本地K8s跑Agent处理敏感财务数据；

如果每个平台的Event Log格式不同（AWS用JSON Lines，Azure用Avro，本地用Protobuf），审计时就得写三套解析脚本。而Braintrust的Brainstore、Arize的Phoenix、LangChain的LangSmith，都在解决同一个问题： 定义Agent Trace的通用Schema 。

目前最接近标准的是OpenTelemetry的 genai 扩展规范，它定义了：

genai.system_prompt （系统提示）
genai.tool_calls （工具调用列表）
genai.content （模型输出内容）
genai.usage.input_tokens （输入token数）

实操建议：无论你用哪家Runtime，都应在Agent输出时，用OpenTelemetry SDK打点。比如在Anthropic Agent的 execute() 返回后，加一段：

from opentelemetry import trace
from opentelemetry.exporter.otlp.proto.http.trace_exporter import OTLPSpanExporter

tracer = trace.get_tracer("ecommerce-agent")
with tracer.start_as_current_span("agent_execute") as span:
    span.set_attribute("genai.system_prompt", system_prompt_hash)
    span.set_attribute("genai.tool_calls", json.dumps(tool_calls))
    span.set_attribute("genai.usage.input_tokens", input_tokens)

这样，你的Trace就能无缝导入任何兼容OpenTelemetry的平台。 别押注某家厂商的私有格式，押注开放标准 。

5.3 新价值高地二：Governance & Policy（治理与策略）

当Agent能自动调用API、修改数据库、发邮件时，“谁批准了这个行为”成为生死问题。AWS AgentCore的Policy Controls GA，OWASP发布Agentic Top 10，说明治理已从“可选项”变成“准入门槛”。

真正的治理不是写几条YAML规则。它需要：

动态策略引擎 ：根据用户角色、数据敏感度、时间窗口动态调整。例如：“非工作时间，禁止Agent调用HR系统API”；
人工审批流 ：当Agent要执行高危操作（如删除数据库表），自动触发Slack审批，经理点头后才放行；
合规证明生成 ：一键导出PDF报告，包含“本次Agent执行的所有操作”“每步操作的审批人”“所有凭证访问记录”。

目前没有成熟SaaS产品覆盖全场景。我们自己用Tempo（Grafana的trace平台）+ Cortex（策略引擎）+ Slack Bot搭了一套，成本是$12,000/年，但避免了因一次误操作导致的GDPR罚款（最高4%全球营收）。

5.4 新价值高地三：Vertical Agent Marketplaces（垂直领域Agent市场）

最后的价值爆发点，一定是 垂直场景的Agent 。Salesforce Agentforce ARR达$8亿，不是因为它的Runtime多牛，而是因为它卖的是“销售开发Agent”——预装了LinkedIn Scraping、Email Drafting、Meeting Scheduling全套能力，销售VP签个字就能用。

开源世界已在孵化：

virattt/ai-hedge-fund ：对冲基金用的Agent，自动抓取SEC文件、计算Delta对冲比例、生成交易指令；
vxcontrol/pentagi ：渗透测试Agent，能自主发现漏洞、编写PoC、生成修复建议；
medai-clinic/claims-processor ：医保理赔Agent，直连CMS-1500表单，自动填表、校验ICD-10编码、对接保险公司API。

我的判断：未来两年，90%的Agent创业公司会死在“通用Runtime”赛道，活下来的一定聚焦在“垂直场景+行业Know-How+预置数据连接器”。比如不做“Agent开发平台”，而做“跨境电商独立站Agent”，预装Shopify API、TikTok Shop API、PayPal风控规则、多语言客服模板——客户要的不是技术，是“明天就能让客服效率提升30%”的结果。

6. 终极拷问：你的Agent基建，是在修路，还是在盖楼？

Anthropic Managed Agents的发布，像一面镜子，照出所有AI基础设施建设者的战略选择。如果你还在纠结“该不该用Anthropic”，答案可能错了——真正该问的是： 当Runtime层注定归零，我的核心资产是什么？

如果你的资产是“一套自研的高性能沙箱”，那恭喜，你正站在VMware 2008年的位置。收入可持续，但增长天花板清晰可见；
如果你的资产是“覆盖10个行业的Agent模板库+行业数据连接器”，那你已是Salesforce Agentforce的潜在收购目标；
如果你的资产是“统一Trace Store + OpenTelemetry标准 + 审计友好Schema”，你正构建下一代AI可观测性的基石；
如果你的资产是“动态策略引擎 + 合规工作流 + 人工审批集成”，你抓住了企业采购最痛的神经。

我去年重建Agent状态层时，团队争论要不要自研Event Log。最终选择用AWS Timestream（时序数据库）+ OpenTelemetry，花了3周。现在，我们能把任何Runtime的Agent日志导入同一套仪表盘，审计报告生成时间从3天缩短到8分钟。这笔投入没让我多赚一分钱，但它让我们的Agent产品通过了某银行的尽职调查——而竞争对手因“日志格式不统一”被直接淘汰。

所以，别再问“Anthropic的Runtime好不好”。去问：“我的客户，愿意为哪个Layer付费？”
是为“能跑Agent的机器”？
还是为“Agent跑完后，我能向CEO证明它没乱来”？
或是为“Agent帮我拿下新客户，而我不用再雇3个销售”？

答案决定了你该往哪一层砸钱。
至于Runtime？让它归零吧。水电厂从不靠卖水赚钱，靠的是让整座城市离不开它的管道。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

Agent 工程中的模型缓存优化经验分享

AI Agent技术社区

CC-Switch不只是切换API：从GitHub更新日志看懂它的功能和底层原理

CC Switch：从配置切换器到AI编程统一管理平台摘要： CC Switch已从最初的Claude Code/Codex供应商切换工具，发展为功能全面的AI编程管理平台。它通过统一界面管理多个AI编程工具（Claude Code、Codex、Gemini CLI等）的配置，支持供应商切换、本地代理路由、跨工具能力同步等功能。核心演进包括：采用SSOT架构集中管理供应商数据、扩展支持6+工具、

AI Agent技术社区

告别手动写PoC！Gemini如何全方位赋能安全工程师自动化漏洞测试

在日常渗透测试、企业内网巡检中，经常会遇到未公开编号的自定义漏洞、小众组件漏洞，无现成PoC可参考。此时只需向Gemini输入漏洞核心特征，包括注入点位、请求路径、参数缺陷、权限漏洞、数据交互异常等关键信息，模型即可自主推导漏洞触发逻辑，针对性生成SQL注入、XSS跨站、文件上传、命令执行、路径遍历等各类自定义测试代码，满足个性化渗透测试需求。AI不会取代安全工程师，但熟练使用AI的安全工程师，将