我的 AI 模型选型对比
Published in:2026-05-18 | category: AI编程

我的 AI 模型选型对比

个人使用备忘 · 感受来自日常开发,不一定完全准确
配合《我的AI编程工作流》· 索引见《AI编程-个人文档索引》
最后更新:2026-07-03


一、一句话选型

场景我一般用备选
定技术方案 / Grill / PRDOpus 4.8Opus 4.7
写代码 / ImplementSonnet 4.6Composer 2.5
AI 审查Opus 4.8GPT-5.3 CodexDeepSeek Pro
人工审查我自己
查工单 / 快问快答Composer 2.5

二、总览(我的主观打分)

模型费用感知速度感受定方案写代码审查一句话
Opus 4.8★★★★★很好定方案专用,贵但值得
Opus 4.7★★★★☆很好和 4.8 日常差不多
Sonnet 5中高偏慢卡在中间,我很少用
Sonnet 4.6还行够用★★★★★够用写代码主力
GPT-5.3 Codex一般专精审查换厂商用
GPT-5.5较好较好用得少
Composer 2.5一般查工单、小活
DeepSeek Pro极低一般初筛便宜审查,要人工补

三、各模型使用感受

Opus 4.8

我怎么用:大需求开 /grill-with-docs、出 PRD、拆 Issues,重要改动的 AI 审查也用它。

我的感受

  • 思考明显慢,转圈时间长,但想的东西确实全——会反问我「验收标准是什么」「这个 Out-of-Scope 要不要排除」,有时候还会帮我把边界想得更清楚
  • ,是目前账单里最能感觉到花钱的模型,一个 Grill 会话下来用量肉眼可见
  • 写具体代码也能写,但拿它 implement 小 Issue 有点浪费,我基本不用它写 CRUD

和 4.7 比:日常短对话体感差别不大(待验证:超长会话 4.8 可能更稳,我还没专门 A/B 测过)

印象:像资深架构师,慢,但适合「先把方向定死」


Opus 4.7

我的感受

  • 和 4.8 用起来感觉差不多,没感到明显「代差」
  • 同样慢、同样贵、同样会追问
  • 4.8 排队或限额时直接换 4.7,规划质量没觉得掉档

印象:4.8 的平替,够用了


Sonnet 5

我的感受

  • 官方说 speed + intelligence 平衡,但我用起来体感偏慢,没有 4.6 那种「说干就干」的爽感
  • 虽然 token 单价在促销,但用量下得很快,怀疑是 thinking 在背后烧(待验证:没试过调低 effort)
  • 能力应该比 4.6 强,但对我来说定位尴尬——定方案不如 Opus 深,写代码不如 4.6 听话省心

印象:试了几回就回到 4.6 了,暂时不是主力


Sonnet 4.6

我怎么用:每个 Issue 新开会话 /implement,工作流里 Phase 1 固定用它。

我的感受

  • 非常听话——Issue 和 Acceptance Criteria 写清楚,基本按条做,很少自作主张大改架构
  • 速度、费用都在能接受的范围,比 Opus 省很多
  • 让它单独做 Grill 或写大 PRD 深度不够,会漏一些边界考量
  • 不适合审自己刚写的代码,和 implement 同模型容易「互相放过」

印象:靠谱的执行者,给清楚任务就稳定交付


GPT-5.3 Codex(我用的 Codex)

我怎么用:主要是 换 OpenAI 审 Claude 写的代码,做 AI 审查那道门。

我的感受

  • 看 diff、找规范问题、对照 Issue 检查 够用
  • 不太习惯它的输出风格——文字偏短、偏「任务清单」,写技术方案或 PRD 时缺少 Opus 那种「为什么选 A 不选 B」的讨论
  • 不是不能用,是 和 Claude 习惯不一样,prompt 要重新适应
  • implement 试过几次,能写,但我更信任 4.6 的「听话」

和其他 Codex 型号:具体用的 5.3,5.1/5.2 没仔细对比过(待验证)

印象:适合当「第二双眼」审代码,不适合当「主笔」写方案


GPT-5.5

我的感受

  • 用得不多,偶尔通用任务
  • 比 Codex 写文档像样一点,但 定大方案还是 Opus 更顺
  • 费用感知比 Codex 高,和 Opus 档接近,所以不常选

印象:有能力的通用模型,但在我工作流里没占到固定位置


Composer 2.5

我怎么用:查 SCM 工单、快速总结、FAQ 类问答;极小改动有时也用它。

我的感受

  • ,响应几乎不用等
  • 便宜,用量几乎无感,适合高频低价值任务
  • 写技术方案 深度不够,Grill 级讨论 hold 不住
  • 复杂 Issue implement 不如 4.6 稳,有过改着改着偏题的情况(样本不多,待验证)

印象:日常杂活神器,别拿它干重活


DeepSeek Pro(V4-Pro)

我怎么用:审查阶段 省钱初筛——先看一遍 diff,再人工过,重要改动 Opus/Codex 复审。

我的感受

  • 极便宜,审查几轮也不心疼
  • 速度 OK,中文业务场景理解还行
  • 考虑不够全面——并发、边界 case、顺手改别的文件这类问题,漏过几次(所以必须人工补)
  • 不能当最终审查,只能当第一道筛子

印象:便宜的预审员,后面还得我自己签字


四、按工作流怎么用

1
2
3
4
5
6
Phase 0 规划        Opus 4.8(4.7 也行)
Phase 1 实现 Sonnet 4.6
Phase 2 AI 审查 Opus 4.8 / Codex(换厂商)
或 DeepSeek 初筛 + 人工
Phase 2 人工审查 我自己(必做)
日常查工单 Composer 2.5

五、我常用的组合

组合什么时候用体感
Opus 规划 → Sonnet 写 → Opus 审 → 人工大需求、要上心的改动最稳,贵
Opus 规划 → Sonnet 写 → Codex 审 → 人工想和 Claude 实现隔离推荐,审查视角更独立
Opus 规划 → Sonnet 写 → DeepSeek 审 → 人工想省审查 token能用,人工得多看两眼
Composer 查工单WTGD 排查、FAQ快省,够用

六、费用 vs 质量(我的体感)

1
2
3
4
5
6
7
8
9
          质量

Opus ● │ GPT-5.5 ●
Sonnet 5 ● │
│ Sonnet 4.6 ●
Codex ● │
│ Composer ●
│ DeepSeek ●
└────────────────→ 费用(越低越右)

七、快速决策

  • 要想清楚再动手 → Opus 4.8
  • Issue 明确了开写 → Sonnet 4.6
  • 审别人/AI 写的代码 → 换 Opus 或 Codex,最后人工过
  • 查工单、小问答 → Composer 2.5
  • 审查想省钱 → DeepSeek 初筛,人工不能省

八、备注

  • 上面都是 我个人习惯,换项目、换 prompt 可能不一样
  • 带「待验证」的是样本少或没系统对比过,大方向应该对
  • 模型更新快,这篇不对了随时改

感受会随模型更新变,当个人备忘用。

Prev:
我的 AI 编程工作流
Next:
《格鲁夫给经理人的第一课》读书笔记(六):转型、挑战与管理者的修炼