Harrison Chase: Your Harness, Your Memory —LangChain 创始人博客原文总结
Harrison Chase: Your Harness, Your Memory
来源:LangChain官方博客原文(https://blog.langchain.com/your-harness-your-memory/),基于红杉资本 Sonya Huang & Pat Grady 访谈 Harrison Chase 播客完整对话
一句话总结
决定 Agent 好坏的不是模型本身,而是你围绕模型构建的 Harness(软件外壳)和你积累的 Memory(长期记忆)。这两样东西才是真正的护城河。
核心观点速览
| 主题 | Harrison Chase 的判断 |
|---|---|
| Long Horizon Agents | 2026 是 Doers 元年,Agent 从对话框走向长程自主执行 |
| Harness > Framework | Agent 的突破靠"有主见的软件外壳",而非通用框架 |
| 通用 Agent ≈ Coding Agent | 所有 Agent 都应具备文件系统权限,代码能力可能是通用 Agent 的终极形态 |
| Traces = 新 Source of Truth | 传统软件看代码知行为,Agent 必须看 Trace 才知道它在干什么 |
| Memory 是真正的 Moat | 经过磨合、内化了任务模式与背景记忆的 Agent,壁垒极高、不可替代 |
| 交互形态 | Async 管理 + Sync 协作的 Hybrid Mode 是未来 |
一、Long Horizon Agents 终于起飞
核心论点
Agent 的核心理念一直是"让 LLM 在循环中运行,自主决策"。AutoGPT 2023 年就做了,但当时模型不够好 + Harness 不够好。现在两者共同进化,Agent 终于 work 了。
杀手级应用 = 长时间运行 + 产出初稿
Harrison 反复强调一个模式:Agent 达不到 99% 可靠性,但能在更长时间内完成大量工作。核心用法是产出高质量初稿,由人审核:
| 场景 | 具体形态 |
|---|---|
| Coding | 产出 PR(Pull Request),人来 review |
| AI SRE | 深入翻日志、追溯故障原因,生成诊断报告交人审查 |
| Research | 生成报告初稿,人改了再发 |
| 金融客服(Klarna 模式) | 一线 AI 搞不定时,后台 Long Horizon Agent 生成事件总结报告再转人工 |
二、Model → Framework → Harness 三层架构
Harrison 明确区分了三个概念层次:
| 层次 | 定义 | 特点 |
|---|---|---|
| Model | LLM 本身 | Token in → Token out |
| Framework | 围绕模型的抽象层(早期 LangChain) | Unopinionated(无预设),方便切换模型、封装工具 |
| Harness | 包裹模型的完整软件环境(Deep Agents) | Opinionated(强预设),内置 Planning、压缩、文件系统 |
Harness 的三大核心能力
-
Context 压缩(Compaction):Long Horizon 任务会撑爆 Context Window,必须智能取舍。把完整内容存文件系统,只留摘要在 Context 中
-
文件系统交互:几乎所有 Agent 的标配。用于存储中间结果、管理 Context、让 Agent 按需回查
-
Sub-agent 调度:主模型协调子 Agent,传递完整信息。Harrison 见过失败案例:子 Agent 做了大量工作,最后返回"请查看我上面的分析"——主 Agent 根本看不到
谁的 Harness 做得最好?
-
Coding 领域最领先:Claude Code、Factory(Droid)、Amp Code
-
关键发现:模型厂商未必最强。Terminal-Bench 2.0 榜单显示,同一模型在不同 Harness 下性能差异巨大。说明第三方完全能在 Harness 层面超越模型厂商
-
核心技巧:理解模型训练偏好(OpenAI 偏 Bash,Anthropic 偏文件编辑工具),顺着"模型的母语"设计 Harness
三、Agent 发展的三个时代
| 时代 | 时间 | 特征 |
|---|---|---|
| 1.0 | 2023 初 | Text-in/Text-out,无 Tool Calling,简单 Prompt/Chain |
| 2.0 | 2023-2025 | 模型学会 Tool Calling,开发者写代码编排决策分支(Scaffolding) |
| 3.0 | 2025.6+ | Claude Code / Deep Research / Manus 集中爆发。核心算法不变(LLM in loop),Context Engineering 质变 |
四、构建 Agent ≠ 构建软件(核心差异)
Harrison 这部分的论述是整篇文章最精华的部分(他在 X 上发的帖子原文):
差异一:Source of Truth 变了
-
传统软件:逻辑全在代码里 → 看代码就知道它会做什么 → Source of Truth = 代码
-
Agent:逻辑一部分在模型(非确定性黑盒)→ 你没法只看代码推断行为 → Source of Truth = 代码 + Traces
差异二:Tracing 从 Day 1 就是核心
-
传统软件:出错了才看日志
-
Agent:从第一天起就用 Trace。因为 Agent 在循环中运行,你根本不知道第 14 步时 Context 里有什么(前 13 步可能拉取了任意内容)
-
Trace 正在取代代码,成为团队协作的中心。出问题时不是"去 GitHub 看代码",而是"去看那条 Trace"
差异三:构建过程更加 Iterative
-
传统软件:发布前你知道它会怎么运行
-
Agent:发布前你不知道它会做什么。你有大致预期,但没有十足把握。为了让它达标,你需要更多轮次的迭代
-
这也是 Memory 重要的原因:如果系统能自己学习,就减少了开发者手动改 System Prompt 的频率
五、Eval 的新范式:LLM-as-a-Judge
人类判断仍是金标准
Agent 做的是人做的事,评判需要引入 Human Judgment。数据标注、Annotation Queues 仍然是核心。
LLM-as-a-Judge 的关键:必须和人类判断对齐
-
LangSmith 做了 Aligned Evals:先让人标注一些 Trace,再基于标注构建 LLM Judge 进行校准
-
如果不对齐,评分器就是垃圾
自我反思 = Eval = Memory,本质是同一件事
Harrison 的关键洞察:
-
Coding Agent 遇错自修 = 在评判自己之前的工作
-
Memory 中的反思更新 = 基于 Trace 改进自身
-
Eval、纠错、Memory,本质上是同一套机制
Eval 信号用于什么?
Harrison 明确表态:比起"用 eval 做 RL reward signal",他更看好"用 eval 当工程反馈、改进 Harness"。具体模式:Coding Agent 通过 CLI 拉取 Trace → 诊断问题 → 修复代码/Prompt。
六、Memory 是真正的 Moat(护城河)
这是整篇文章的标题观点,也是 Harrison 最强烈的判断:
为什么 Memory 才是壁垒?
-
ChatGPT 的 Memory 没增加粘性 → 因为都是 one-off 任务,上下文不关联
-
垂直场景的 Agent 完全不同:特定工作流 + 长期积累 = 不可替代
-
Memory = 长周期的 Context Engineering
自我改进的路径
-
交互式学习:用户说"你不该做 X,应该做 Y" → Agent 修改自身 Instructions(编辑文件)
-
Sleep Time Compute:每晚回顾当天 Traces → 自动更新指令
-
人类始终在 loop 中:Agent 改的是"初稿",人来审核
七、未来的交互形态:Hybrid Mode
Async + Sync 混合模式
-
Async(异步):Long Horizon Agent 默认后台运行,用 Linear/Jira/看板/Email 式界面管理多个并行 Agent
-
Sync(同步):关键时刻切入 Chat 模式,高频交互修正输出
-
Shared State:人和 Agent 共同盯着同一个 Workspace(目录/Google Drive/Notion)
Agent Inbox 的教训
Harrison 一年前做了 Agent Inbox 第一版(纯异步:Agent ping 你,你回一句,然后干等),体验很差。关键转折:打开 Inbox 时直接进入 Chat(同步模式)。
八、Agent 的标配能力
| 能力 | Harrison 的信心度 | 说明 |
|---|---|---|
| 文件系统访问 | 100%(“File System Pilled”) | 上下文管理的核心,所有 Agent 标配 |
| 代码执行 | 90% | 长尾复杂用例不可替代,Code Sandbox 是关键组件 |
| 浏览器操作 | 尚不成熟 | 模型能力不够稳定,可通过 CLI 间接实现部分功能 |
九、对传统软件公司的影响
数据仍有价值
现有公司拥有数据和 API,接入 Agent 价值巨大。金融行业的人说:“数据的价值只会越来越高。”
新增的部分:Instructions
以前人来执行的"如何使用数据"的知识,现在需要系统化为 Agent 可执行的指令。这部分是全新的。
谁更擅长做 Agent?
-
年轻团队有优势:没有先入之见,更快拥抱新范式
-
但公司层面取决于数据资产
-
垂直创业公司(如 Rogo)之所以有效,是因为 Agent 的驱动力来自如何执行特定流程的知识,而非通用知识
十、金句摘录
-
“核心算法没变,变的是 Context Engineering。”
-
“Agent 的 Source of Truth 不再是代码,而是代码 + Traces。”
-
“Memory 可能是真正的护城河。即使 prompt 和工具完全相同,没有 memory 的新 Agent 体验断崖式下降。”
-
“LLM-as-a-Judge 如果不和人类判断对齐,评分器就是垃圾。”
-
“我不认为长期来看大多数人都会自己写 harness,因为它比做 framework 难太多了。”
-
“预测未来真的很难。我希望下次来证明我今天说的全部都是错的。”
更多推荐

所有评论(0)