Anthropic 40万会话深度研究：AI 编码时代，专家知识为何依然值钱？

Chennn__

124人浏览 · 2026-06-21 11:17:36

Chennn__ · 2026-06-21 11:17:36 发布

副标题：Claude Code 使用数据分析揭示的人机分工与知识价值
来源：Anthropic Research — Agentic coding and persistent returns to expertise (2026-06-11)

一、引言：Agentic Coding 热潮与开发者的焦虑

2025 年底以来，Agentic Coding（智能体编码） 以惊人的速度席卷了整个技术圈。GitHub 上带有编码代理活动的项目数量在短短几个月内翻了一番，Claude Code 用户每周平均使用时长达到 20 小时。

当 AI 能自主阅读代码、修改文件、运行测试、甚至部署应用时，一个灵魂拷问摆在每个开发者面前：

“我还要继续深耕技术吗？AI 会不会取代我？”

Anthropic 最新发布的一项大规模研究，基于 2025年10月至2026年4月 期间约 40 万个 Claude Code 交互会话（来自约 23.5 万名用户），给出了一个出人意料的答案：

专家知识不仅没有贬值，反而在 AI 编码时代获得了"持续性回报"（persistent returns to expertise）。

这篇文章将带你深入解读这项研究的核心发现，并给出对中文开发者的实际启示。

二、核心发现一：清晰的人机分工——你决策，AI 执行

2.1 规划 vs 执行的"三七开"与"二八开"

Anthropic 的研究团队开发了一个隐私保护的决策归属分类器，将每个会话中的决策分为两类：

规划决策（Planning）：做什么、用什么方法、怎样算完成
执行决策（Execution）：改哪些文件、写什么代码、运行什么命令

结果显示了一个清晰的分工模式：

决策类型	用户占比	AI（Claude）占比
规划决策	~70%	~30%
执行决策	~20%	~80%

解读：用户掌握"做什么"的主动权，而 AI 主导"怎么做"的技术细节。这正是 Agentic Coding 的核心范式——人类负责方向和意图，AI 负责实现和交付。

2.2 一次对话，AI 能干多少活？

研究还统计了交互的"密度"：

一次典型会话中，用户和 Claude 大约有 4 轮对话
每轮用户提示会触发 Claude 约 10 个动作（有时超过 100 个）
Claude 平均每次输出约 2,400 词的内容
当 Claude 主导规划时（做出 80% 以上规划决策），每轮动作数飙升至 16 个

这意味着：一个精心设计的提示，可以让 AI 完成过去需要数小时的手工编码工作。

三、核心发现二：专家知识有"持续性回报"

3.1 什么是"领域专家"？

研究中的"专家"定义非常有趣——不是看职位头衔，而是看任务表现。Anthropic 让 Claude 根据三个信号来评估用户的专业程度：

指令精确度：用户能否精确描述需求和约束
验证意识：用户是否要求 Claude 验证特定条件
纠错方向：是用户在纠正 Claude，还是 Claude 在纠正用户

一个 Rust 新手的高级工程师可能被评为"新手"；而一个从未写过 Python 的会计，如果能准确描述月末对账规则并发现 AI 忽略的边缘情况，就是该任务的"专家"。

3.2 专家真的更成功吗？

答案是：是的，但差距没有你想象的那么大。

研究发现：

领域专家的成功率确实更高，能够更好地从错误和误解中恢复
但中级用户与专家之间的差距是 modest（适度的）——拥有足够领域理解的人，几乎能和深度专家一样有效地使用工具
关键不是编码能力，而是对问题的理解深度

一句话总结：AI 编码工具不是在替代领域专家，而是在放大专家的能力——你对问题理解得越透彻，AI 能为你完成的质量工作就越多。

3.3 七个月间的趋势变化

研究观察了 2025 年 10 月到 2026 年 4 月这七个月的变化：

指标	变化趋势	含义
调试时间占比	下降近一半	AI 犯的错误越来越少，或用户更擅长避免错误
端到端代理使用	显著上升	用户更多用 Claude 部署、运行代码、分析数据、写文档
任务价值	平均上涨 25%	几乎所有类型工作的任务价值都在提升

这意味着什么？ Claude Code 用户不仅用 AI 写更多代码，还在做更高价值、更复杂、更完整的任务。

四、核心发现三：非程序员也能成功编码

4.1 职业不是门槛

这是最令人振奋的发现之一：

在编码任务上，几乎每个主要职业的用户都能达到与软件工程师几乎相同的成功率。

研究将用户按职业分类后发现，无论是金融分析师、产品经理、科研人员还是设计师，只要他们能清晰描述自己要解决的问题，就能借助 Claude Code 成功完成技术任务。

4.2 九种工作模式

Anthropic 将 Claude Code 的使用分为 9 种工作模式：

模式	占比	说明
Building（构建）	25%	写新代码
Fixing（修复）	26%	修复 bug
Testing/Orchestrating（测试/编排）	5%	测试代码或编排其他 agent
Operating（运维）	17%	部署、配置、运行流水线
Understanding（理解）	~7%	理解现有系统
Planning（规划）	~7%	在动手前做规划
Analyzing（分析）	~7%	数据分析
Communicating（沟通）	~6%	写文档、PPT 等

编码相关任务（构建+修复+测试）占了 56%，但非编码任务（运维、分析、文档）也占了相当比例——Agentic Coding 正在扩展为 Agentic Work（智能体工作）。

五、实战代码：如何像专家一样使用 Claude Code

5.1 精确描述需求（专家级提示模板）

研究显示，精确的指令是区分专家和新手的关键。以下是一个"专家级"提示模板：

# ❌ 新手提示（模糊、缺乏上下文）
"帮我写一个 Python 脚本处理数据"

# ✅ 专家提示（精确、有约束、有验证要求）
"""
请帮我写一个 Python 脚本，用于处理 CSV 日志文件，要求：

【业务背景】
- 我们是一个电商平台的运营团队，需要分析每日订单日志
- 日志文件位于 /data/logs/orders_YYYYMMDD.csv
- 每行格式：order_id, user_id, amount, status, timestamp

【功能要求】
1. 读取指定日期的日志文件
2. 按 status 分组统计订单数量和总金额
3. 识别金额异常（超过平均值 3 个标准差）的订单
4. 输出到 /reports/daily_summary_YYYYMMDD.json

【约束条件】
- 使用 pandas 处理数据，logging 记录执行日志
- 处理文件不存在的情况，抛出 FileNotFoundError
- 内存占用不超过 1GB（考虑使用分块读取）

【验证要求】
- 请写一个单元测试验证分组统计的正确性
- 请用示例数据（10 行）运行并展示输出格式
"""

5.2 让 AI 做"执行"，你做"规划"

# 示例：用 Claude Code 完成一个完整的数据处理流程

# Step 1: 用户规划（人类决策）
# "我需要构建一个 ETL 流水线，从 PostgreSQL 读取用户行为数据，
# 清洗后存入 ClickHouse 用于实时分析。请按以下步骤执行：
# 1. 读取数据库连接配置（从环境变量读取）
# 2. 查询最近 24 小时的数据
# 3. 清洗空值和异常值
# 4. 批量写入 ClickHouse
# 5. 记录处理日志和指标"

# Step 2: Claude 执行（AI 实现）
# Claude 会自动生成完整代码、处理错误、运行测试
# 用户只需要在关键节点确认和修正方向

5.3 建立"验证习惯"

专家用户的第三个信号是主动验证。以下是一个验证清单：

# 与 Claude 协作时的验证清单
checklist = {
"边界情况": "是否处理了空输入、超大文件、网络超时？",
"安全考虑": "是否有 SQL 注入、XSS 或敏感信息泄露风险？",
"性能指标": "时间复杂度是多少？是否适合生产环境？",
"测试覆盖": "是否写了单元测试？测试用例是否包含边界情况？",
"文档完整": "函数是否有 docstring？复杂逻辑是否有注释？"
}

# 在对话中主动要求 Claude 检查：
# "请检查上述代码是否处理了以下边界情况：..."
# "请用 pytest 为这三个函数编写测试用例"

六、对中文开发者的三大启示

启示一：深耕领域知识，比追逐框架更重要

研究明确指出：“成功取决于用户对问题的理解深度，而非是否受过编程训练。”

这意味着：

业务理解能力将成为技术人的核心竞争力
金融+代码、医疗+代码、法律+代码的复合型人才将更加稀缺
单纯掌握某个框架（如 React、Spring Boot）的"工具人"价值会下降

启示二：调试能力正在"贬值"，架构能力正在"升值"

七个月内调试占比下降近一半，说明：

AI 正在接管低层次的调试和纠错
人类的战场正在上移：系统架构、业务建模、质量把控、创新设计
开发者应该把更多时间花在理解业务和设计系统上，而非与 bug 搏斗

启示三：AI 不会取代你，但会用 AI 的人可能取代你

非程序员也能成功编码，这意味着：

产品经理、业务分析师、运营人员正在获得"技术实现能力"
传统开发者需要重新定义自己的价值——不是写代码，而是解决问题
学会用 Claude Code、Cursor、Copilot 等工具，已经从"加分项"变成"必备项"

七、总结与展望

Anthropic 这项基于 40 万会话的大规模研究，给出了一个清晰的信号：

AI 编码工具不是在替代知识工作者，而是在重塑工作的分工。 人类的角色从"执行者"转变为"规划者和把关者"，而领域专业知识——对业务、对问题、对系统的深刻理解——成为决定成败的关键变量。

对于中文开发者而言，这是一个最好的时代：

AI 降低了技术实现的门槛，让更多人能把自己的想法变成产品
专家知识的价值被放大，深度思考者可以获得更高的杠杆
任务价值持续上升，开发者有机会从事更有创造性和高价值的工作

正如这项研究的标题所言：专家知识的回报是持续的（persistent returns to expertise）。在 AI 时代，真正值钱的不是你会写多少行代码，而是你理解多少问题、能做出多少正确的决策。

参考与延伸阅读

Anthropic 原文：Agentic coding and persistent returns to expertise
相关研究：Anthropic 此前关于 “How AI Is Transforming Work at Anthropic” 和 “Estimating AI productivity gains” 的报告
工具推荐：Claude Code、Cursor、GitHub Copilot、Cline

作者注：本文基于 Anthropic 2026 年 6 月 11 日发布的最新研究报告撰写，核心数据和图表均来自原文。如需了解研究方法论（如隐私保护分析工具、分类器设计等），请参考原文附录。

标签：Anthropic 大模型 AI编码 机器学习 Python 人工智能 Claude Code Agentic Coding

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

MonkeyCode 上手教程：从注册到跑通第一个 AI 开发任务，全程不到 10 分钟

AI Agent技术社区

增强“Dynamic Workflow + 收敛 Loops + 角色分离 Session + Gatekeeper“在三方库鸿蒙化迁移中的实践

让 Claude 写一个函数很容易。让 Claude 在持续数小时、跨越多个文件、涉及数百个函数、按照不同角色跑完一套工程——这是另一个量级的挑战。基于 HarmonyOS ArkTS 三方库迁移的工程实践，识别出了在长文本长工程中的四个根本性痛点——目标漂移、子 Agent 中立性丧失、记忆脆断、注意力熵增——并提出了一套在 Dynamic Workflow 基础上，基于"收敛 Loop + 角

AI Agent技术社区

VibeCoding了两年分享一下我对于Vibe的感想

我是从 2024 年读高二的时候了解到 Vibe Coding 的（当时大家还没有叫它 Vibe Coding ），当时 DeepSeek 刚出 R1 ，除了 OpenAI 的 GPT-o1 之外，大家还没来得及用上思维链，也没有那么强的性能，参数量最大的模型的话好像是 R1 的 671B。而有些神人就不一样了，在圈子里展示着他们那强劲的音道，嗓门又大音高又高，把正常交流的声音全盖住，炫耀自己又烧