AI 编程时代,你的优势是什么 · 个人总结
Published in:2026-02-08 | category: AI编程

AI 编程时代,你的优势是什么 · 个人总结

读了 Anthropic 2026.6 关于 Claude Code 的大规模研究 + 几篇解读后的自己的理解 · 2026-07-03


研究在说什么

Anthropic 分析了约 40 万次 Claude Code 会话、23.5 万用户(2025.10–2026.4),报告名 Agentic coding and persistent returns to expertise

核心结论:决定 Agent 编程成败的, increasingly 是领域专业度,不是编码背景。

这不是某博主体感,是隐私 preserving 分类器 + 遥测交叉验证的统计结果(分类器读 transcript,不只看 job title)。


人机分工已经变了

典型会话里:

  • 人 ~70% 规划决策(做什么、什么算完成)
  • Claude ~80% 执行决策(改哪些文件、写什么代码、跑什么命令)

用户发一条 prompt,Claude 平均链式执行 ~10 个 action、产出 ~2400 词——人决定方向,Agent 填细节。

「怎么写代码」这块硬功夫 Agent 接走了大头;剩下「做什么」靠的是对这件事本身的理解


会写代码的护城河还守得住吗?

各职业成功率(产出代码的会话,verified success)

群体成功率
软件/数学相关职业34%
其他职业29%
差距5 个百分点
  • 十大职业群全部落在软件工程师 7 个点以内
  • 管理岗 verified success 甚至略高于软件工程(可能 partly 因为更愿意在 transcript 里确认完成)
  • 七个月观察期内,这个 gap 没有缩小也没有扩大——模型变强了,职业差距没抹平

整体(含不产代码的会话):软件相关 ~30%,其他 ~26%。

结论:编码背景正在变得 less decisive,但不是 zero——5pp 差距真实存在,只是远小于直觉预期。


真正拉开差距的是什么

同一条 prompt,不同专业度

水平每 prompt 触发 action每 prompt 产出字数
新手~5~600
专家~12~3200

差在会不会派活——跟 Java 语法无关,跟懂不懂这个领域的门道直接相关。

秒杀例子:

  • 新手:「写个扣库存接口」→ 直接 update set stock = stock - 1,单线程测试 OK
  • 老手:「Redis 预扣 + Lua 原子扣减 + 热点限流 + 异步落库最终一致」→ 一整套

差别不在语法,在于懂超卖、击穿、一致性。

翻车时的差距

新手中级/专家
遇麻烦后放弃(abandon)19%5–7%

专家也会遇到 AI 瞎写——区别在于一眼看出哪不对、知道往哪救。本地全绿不信,上压测;新手本地 OK 就上线,真秒杀超卖。


得先修炼成专家吗?不用

verified success 按 expertise 分级:

水平verified successpartial success
新手15%77%
中级+28–33%91–92%

最大跳跃:新手 → 中级;中级 → 专家曲线平了。

官方原话:a working grasp of the domain captures most of the benefit, while deep specialization adds only a bit more.

翻译:及格线很低。不需要二十年老炮,知道一件正常的活该长什么样、关键约束是什么、做出来对不对,就已经跨过收益最大的坎。


七个月趋势:Agent 在扛更值钱的活

变化数据
修 bug 占比33% → 19%
运维/部署14% → 21%
写作 + 数据分析10% → **20%**
任务估算价值平均 +27%

Agent 从「帮你打补丁的小工」→ 能扛端到端部署、数据分析、文档的主力。人顺势从抠 bug → 更靠近「想清楚要什么」。

截至 2026.4,新手和专家的 success gap 没有因模型进步而收敛——领域判断力暂时还没被 Agent 替代。


用好 AI 编程的三件事(全不考编码)

#能力本质
1说清问题约束、边界、坑——不只说「做什么」
2拆好活大需求逐环实现,每环可验收
3会验收压测、边界 case、并发;不信本地全绿

这三件和我工作流完全对齐:Grill 说清 → Issues 拆活 → AI 审查 + 人工审查验收。


「AI 不能担责」——我的理解

研究数据支持一个直觉:AI 能执行,不能为你的业务决策担责。

  • 34% verified success 意味着 66% 的会话 strict 意义下不算完全成功——即使专家也一样
  • 你必须懂行,才能指方向、拆任务、验结果、在 AI 瞎写时救回来
  • 护城河不是语法和 API(Agent 比你熟),是你在某个领域里比 AI 更懂这件事本身

Non-engineer 29% vs engineer 34% 说明红利不 exclusive 给程序员——懂业务的人照样能指挥 Agent。反过来说,只会写 CRUD、不懂业务的程序员,优势在缩小。


对我工作流的启示

研究结论我的应对
规划决策主要在人Phase 0 Opus Grill,不跳过
执行 Agent 接Phase 1 Sonnet implement,Issue 收窄范围
专家更会验收Phase 2 换 AI 审查 + 人工必过 diff
新手→中级收益最大不必焦虑「要成为全栈专家」,先把负责域吃透
任务价值在涨把时间从抠 bug 转向想清楚要什么

Spec Coding + 双道审查,本质上就是在系统化地做「说清、拆活、验收」——研究给的是统计背书,不是新方法论。


待验证 / 研究局限

  • 分类器读 transcript,不能测「代码上线后是否真的在用」
  • expertise 是 task-specific 的——Rust 新手和 reconciliation 专家可以同一个人
  • 非交互式 usage(CI 里的 Agent)未纳入
  • 我的体感:partial success 91% 看着高,但「部分成功」离「可 merge 上线」可能还差很远——verified 15–33% 更接近真实交付门槛

一句话

同样一个 Claude Code,有人开挂有人骂笨——差在懂不懂行,不是会不会写代码。我的优势不是和 AI 比语法,是比它更懂我要解决的那个问题,并且敢为 merge 担责

Prev:
Elasticsearch 核心概念:段、提交点与 Translog
Next:
《格鲁夫给经理人的第一课》读书笔记(三):团队成熟度与管理风格