1.AIOps 的发展历史

2.传统 AIOps 落地痛点

2.1. 异构数据源整合成本极高

AIOps 的核心是基于多种维度的数据,根据权重对风险进行综合研判,但传统 AIOps 落地过程中,首先面临的挑战就是异构数据源接入和融合处理的成本,日志、链路、指标这些数据通常在 ElasticSearch、Promethus、Database 等等。

2.2. 专家经验复用难度极大

传统 AIOps 系统本质是一个复杂的规则系统,简单规则由人工经验转化、复杂规则使用特定算法实现。历史故障得来的经验教训、业务架构大图、故障应急 SOP 等等都难以被系统高效利用。

2.3. 决策和执行隔离

传统 AIOps 更像是一个大数据系统,基于人工规则进行统计,人根据数据呈现的特征来执行运维动作。AI 系统不承担动作执行的职责,一方面是 AI 无法像人一样思考。

3.OpenClaw 的新机会

OpenClaw 带来新机会的核心在于解决了AIOps落地中的几个关键难题:将专家的经验和流程固化为可复用的技能、打通了从感知到执行的自动化闭环,并提供了更安全、更可控的治理基础。具体体现在以下几个方面:

3.1. 将专家经验“代码化”,让 AI 真正“懂运维”

3.1.1. Role + Skill + Memory

基于 SRE 的定位 + 行动指南,赋予 Agent “人设”,让 AI 能够像 SRE 一样思考,普通人的思维模式和 SRE 有很大区别。首先,普通人默认系统是正常的,而 SRE 的思维模式是系统为什么还没崩,崩了之后该如何应对。其次,出了问题普通人的思考模式容易滑向“谁干的?怎么处罚?”的归罪循环。SRE文化则完全不同,其思考起点是:“我们的系统设计有什么漏洞,才让一个合理的人(或正常的操作)能触发如此严重的故障?” 最终的产出不是处罚通知,而是一份包含具体改进行动项、时间线和负责人的事后复盘报告。最后,SRE 的"误差预算思维",普通人追求100%稳定。SRE深知100%稳定在技术上不可能,经济上也不合理。他们的核心思考是“我们愿意承担多大风险”,并用误差预算来量化。这就像为稳定性开设的银行账户——花完了,就冻结所有新功能发布,全力还“稳定债”。

据此可知,SRE 的思维模式是一个被刻意训练之后的模式。这正是为什么要赋予 SRE 人设的原因。

3.1.2. 越用越聪明的机制

对话即知识:当 AI 在排障中成功解决了某个问题(如发现“数据库健康但服务报错,应优先检查连接池”),seekdb M0 等高级记忆插件能在后台异步分析此次交互,自动将这种宝贵的“踩坑经验”蒸馏出来,存入经验库。

3.2. 打通“感知-决策-执行”

OpenClaw 的自主决策力的根基 - 语义检索+因果推理,使得决策过程跟传统规则匹配的逻辑完全不同,并且传统固定工作流变成了动态规划的工作流机制,使得决策效果大幅提升。

3.4. 让数据融合成本大幅降低

这里不再具体展开,OpenClaw 的 MCP Tool 机制等标准协议,自然语言驱动的脚本编写都让 AIOps 的数据应用更加得心应手。

4. SREHarness 的本质

由于大模型行为的不可解释性,使得如何驾驭一个你无法完全理解其内部运作原理的系统的能力就尤为重要。因此,Harness 的本质是一套控制机制,首先接受大模型对于人类来说是个黑箱的事实,然后用一系列工程手段来约束它。放弃对内部的理解,转为经营输入、输出关系,从外部看输入和输出的相关性。

SRE 在使用 AI Agent 的时候最担忧的也是 AI 失控,这种失控所带来的损失可能是难以承受的。因此,给 SRE 这个岗位设定一系列的 Harness 就尤为重要。SREHarness 三个主要定义:

4.1. 标准化的运行边界

这是SRE“量化一切”思维的体现。Harness 将 SLI(服务等级指标)、SLO(服务等级目标)和误差预算从纸面概念,变成系统可强制执行的门禁。比如,当误差预算耗尽,Harness会自动锁死变更流水线,让“冻结发布”成为系统行为,而非需要人为沟通的决定。

4.2. 自动化的安全防护

这是“为失败而设计”理念的工程实现。SRE本能地厌恶手动操作,因此Harness会把故障响应、容量扩缩、流量切换等“运维直觉”,固化为可重复执行的、经过验证的自动化预案。它确保凌晨 3 点的应急操作,也能达到白天最清醒时的决策水平,消除操作员的个体差异风险。

4.3. 可验证的可靠性担保

这体现了SRE对“系统真相”的追求。不同于简单的监控,Harness必须提供独立、不可篡改的审计轨迹。它能回答:“当时那个变更是否合规?谁在什么条件下放行了?系统状态改变的逻辑是什么?” 这种可验证性,是SRE从“我们觉得系统可靠”到“我们可以证明系统当时按预期运行”的关键跃升。

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐