Harrison Chase: Your Harness, Your Memory —LangChain 创始人博客原文总结

维多利亚少年-

27人浏览 · 2026-05-13 16:51:01

维多利亚少年- · 2026-05-13 16:51:01 发布

Harrison Chase: Your Harness, Your Memory

来源：LangChain官方博客原文（https://blog.langchain.com/your-harness-your-memory/），基于红杉资本 Sonya Huang & Pat Grady 访谈 Harrison Chase 播客完整对话

一句话总结

决定 Agent 好坏的不是模型本身，而是你围绕模型构建的 Harness（软件外壳）和你积累的 Memory（长期记忆）。这两样东西才是真正的护城河。

核心观点速览

主题	Harrison Chase 的判断
Long Horizon Agents	2026 是 Doers 元年，Agent 从对话框走向长程自主执行
Harness > Framework	Agent 的突破靠"有主见的软件外壳"，而非通用框架
通用 Agent ≈ Coding Agent	所有 Agent 都应具备文件系统权限，代码能力可能是通用 Agent 的终极形态
Traces = 新 Source of Truth	传统软件看代码知行为，Agent 必须看 Trace 才知道它在干什么
Memory 是真正的 Moat	经过磨合、内化了任务模式与背景记忆的 Agent，壁垒极高、不可替代
交互形态	Async 管理 + Sync 协作的 Hybrid Mode 是未来

一、Long Horizon Agents 终于起飞

核心论点

Agent 的核心理念一直是"让 LLM 在循环中运行，自主决策"。AutoGPT 2023 年就做了，但当时模型不够好 + Harness 不够好。现在两者共同进化，Agent 终于 work 了。

杀手级应用 = 长时间运行 + 产出初稿

Harrison 反复强调一个模式：Agent 达不到 99% 可靠性，但能在更长时间内完成大量工作。核心用法是产出高质量初稿，由人审核：

场景	具体形态
Coding	产出 PR（Pull Request），人来 review
AI SRE	深入翻日志、追溯故障原因，生成诊断报告交人审查
Research	生成报告初稿，人改了再发
金融客服（Klarna 模式）	一线 AI 搞不定时，后台 Long Horizon Agent 生成事件总结报告再转人工

二、Model → Framework → Harness 三层架构

Harrison 明确区分了三个概念层次：

层次	定义	特点
Model	LLM 本身	Token in → Token out
Framework	围绕模型的抽象层（早期 LangChain）	Unopinionated（无预设），方便切换模型、封装工具
Harness	包裹模型的完整软件环境（Deep Agents）	Opinionated（强预设），内置 Planning、压缩、文件系统

Harness 的三大核心能力

Context 压缩（Compaction）：Long Horizon 任务会撑爆 Context Window，必须智能取舍。把完整内容存文件系统，只留摘要在 Context 中
文件系统交互：几乎所有 Agent 的标配。用于存储中间结果、管理 Context、让 Agent 按需回查
Sub-agent 调度：主模型协调子 Agent，传递完整信息。Harrison 见过失败案例：子 Agent 做了大量工作，最后返回"请查看我上面的分析"——主 Agent 根本看不到

谁的 Harness 做得最好？

Coding 领域最领先：Claude Code、Factory（Droid）、Amp Code
关键发现：模型厂商未必最强。Terminal-Bench 2.0 榜单显示，同一模型在不同 Harness 下性能差异巨大。说明第三方完全能在 Harness 层面超越模型厂商
核心技巧：理解模型训练偏好（OpenAI 偏 Bash，Anthropic 偏文件编辑工具），顺着"模型的母语"设计 Harness

三、Agent 发展的三个时代

时代	时间	特征
1.0	2023 初	Text-in/Text-out，无 Tool Calling，简单 Prompt/Chain
2.0	2023-2025	模型学会 Tool Calling，开发者写代码编排决策分支（Scaffolding）
3.0	2025.6+	Claude Code / Deep Research / Manus 集中爆发。核心算法不变（LLM in loop），Context Engineering 质变

四、构建 Agent ≠ 构建软件（核心差异）

Harrison 这部分的论述是整篇文章最精华的部分（他在 X 上发的帖子原文）：

差异一：Source of Truth 变了

传统软件：逻辑全在代码里 → 看代码就知道它会做什么 → Source of Truth = 代码
Agent：逻辑一部分在模型（非确定性黑盒）→ 你没法只看代码推断行为 → Source of Truth = 代码 + Traces

差异二：Tracing 从 Day 1 就是核心

传统软件：出错了才看日志
Agent：从第一天起就用 Trace。因为 Agent 在循环中运行，你根本不知道第 14 步时 Context 里有什么（前 13 步可能拉取了任意内容）
Trace 正在取代代码，成为团队协作的中心。出问题时不是"去 GitHub 看代码"，而是"去看那条 Trace"

差异三：构建过程更加 Iterative

传统软件：发布前你知道它会怎么运行
Agent：发布前你不知道它会做什么。你有大致预期，但没有十足把握。为了让它达标，你需要更多轮次的迭代
这也是 Memory 重要的原因：如果系统能自己学习，就减少了开发者手动改 System Prompt 的频率

五、Eval 的新范式：LLM-as-a-Judge

人类判断仍是金标准

Agent 做的是人做的事，评判需要引入 Human Judgment。数据标注、Annotation Queues 仍然是核心。

LLM-as-a-Judge 的关键：必须和人类判断对齐

LangSmith 做了 Aligned Evals：先让人标注一些 Trace，再基于标注构建 LLM Judge 进行校准
如果不对齐，评分器就是垃圾

自我反思 = Eval = Memory，本质是同一件事

Harrison 的关键洞察：

Coding Agent 遇错自修 = 在评判自己之前的工作
Memory 中的反思更新 = 基于 Trace 改进自身
Eval、纠错、Memory，本质上是同一套机制

Eval 信号用于什么？

Harrison 明确表态：比起"用 eval 做 RL reward signal"，他更看好"用 eval 当工程反馈、改进 Harness"。具体模式：Coding Agent 通过 CLI 拉取 Trace → 诊断问题 → 修复代码/Prompt。

六、Memory 是真正的 Moat（护城河）

这是整篇文章的标题观点，也是 Harrison 最强烈的判断：

为什么 Memory 才是壁垒？

ChatGPT 的 Memory 没增加粘性 → 因为都是 one-off 任务，上下文不关联
垂直场景的 Agent 完全不同：特定工作流 + 长期积累 = 不可替代
Memory = 长周期的 Context Engineering

自我改进的路径

交互式学习：用户说"你不该做 X，应该做 Y" → Agent 修改自身 Instructions（编辑文件）
Sleep Time Compute：每晚回顾当天 Traces → 自动更新指令
人类始终在 loop 中：Agent 改的是"初稿"，人来审核

七、未来的交互形态：Hybrid Mode

Async + Sync 混合模式

Async（异步）：Long Horizon Agent 默认后台运行，用 Linear/Jira/看板/Email 式界面管理多个并行 Agent
Sync（同步）：关键时刻切入 Chat 模式，高频交互修正输出
Shared State：人和 Agent 共同盯着同一个 Workspace（目录/Google Drive/Notion）

Agent Inbox 的教训

Harrison 一年前做了 Agent Inbox 第一版（纯异步：Agent ping 你，你回一句，然后干等），体验很差。关键转折：打开 Inbox 时直接进入 Chat（同步模式）。

八、Agent 的标配能力

能力	Harrison 的信心度	说明
文件系统访问	100%（“File System Pilled”）	上下文管理的核心，所有 Agent 标配
代码执行	90%	长尾复杂用例不可替代，Code Sandbox 是关键组件
浏览器操作	尚不成熟	模型能力不够稳定，可通过 CLI 间接实现部分功能

九、对传统软件公司的影响

数据仍有价值

现有公司拥有数据和 API，接入 Agent 价值巨大。金融行业的人说：“数据的价值只会越来越高。”

新增的部分：Instructions

以前人来执行的"如何使用数据"的知识，现在需要系统化为 Agent 可执行的指令。这部分是全新的。

谁更擅长做 Agent？

年轻团队有优势：没有先入之见，更快拥抱新范式
但公司层面取决于数据资产
垂直创业公司（如 Rogo）之所以有效，是因为 Agent 的驱动力来自如何执行特定流程的知识，而非通用知识

十、金句摘录

“核心算法没变，变的是 Context Engineering。”
“Agent 的 Source of Truth 不再是代码，而是代码 + Traces。”
“Memory 可能是真正的护城河。即使 prompt 和工具完全相同，没有 memory 的新 Agent 体验断崖式下降。”
“LLM-as-a-Judge 如果不和人类判断对齐，评分器就是垃圾。”
“我不认为长期来看大多数人都会自己写 harness，因为它比做 framework 难太多了。”
“预测未来真的很难。我希望下次来证明我今天说的全部都是错的。”

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

多 LLM 集成困境破局：AI API 网关架构设计与 Aegisy 实践解析

随着大语言模型技术快速迭代，GPT、Claude、Gemini 等主流模型在能力、场景上各有侧重，多模型混合调用已成为 AI 应用开发的常态。但不同厂商接口规范割裂、链路稳定性差、密钥管理混乱、故障容错能力弱等工程问题，持续困扰个人开发者与中小型技术团队。本文从 AI 网关行业痛点、核心架构、关键技术原理出发，结合 Aegisy 网关落地案例，分析统一 API 层、智能路由、故障转移、会话持久化等

AI Agent技术社区

6大AI 聚合平台深度横评：这些核心指标奠定了非线智能API企业首选

然而，在企业生产所要求的 99.99% SLA、详尽的用量审计、子账号权限颗粒度和合规的企业发票方面，它的产品化程度仍在追赶阶段。然而，它的产品形态更贴近“模型目录”或“云市场”，在跨模型的智能路由、细颗粒度 Token 消耗分析、开发者工具链兼容等专业聚合平台的核心功能上，深度有所欠缺。如果你的团队正在运行高并发生产系统，需同时调用多个海外模型（Claude、Gemini、GPT），要求每个 T