我的 AI 模型选型对比
个人使用备忘 · 感受来自日常开发,不一定完全准确
配合《我的AI编程工作流》· 索引见《AI编程-个人文档索引》
最后更新:2026-07-03
一、一句话选型
| 场景 | 我一般用 | 备选 |
|---|---|---|
| 定技术方案 / Grill / PRD | Opus 4.8 | Opus 4.7 |
| 写代码 / Implement | Sonnet 4.6 | Composer 2.5 |
| AI 审查 | Opus 4.8 或 GPT-5.3 Codex | DeepSeek Pro |
| 人工审查 | 我自己 | — |
| 查工单 / 快问快答 | Composer 2.5 | — |
二、总览(我的主观打分)
| 模型 | 费用感知 | 速度感受 | 定方案 | 写代码 | 审查 | 一句话 |
|---|---|---|---|---|---|---|
| Opus 4.8 | 贵 | 慢 | ★★★★★ | 好 | 很好 | 定方案专用,贵但值得 |
| Opus 4.7 | 贵 | 慢 | ★★★★☆ | 好 | 很好 | 和 4.8 日常差不多 |
| Sonnet 5 | 中高 | 偏慢 | 好 | 好 | 好 | 卡在中间,我很少用 |
| Sonnet 4.6 | 中 | 还行 | 够用 | ★★★★★ | 够用 | 写代码主力 |
| GPT-5.3 Codex | 中 | 中 | 一般 | 专精 | 好 | 审查换厂商用 |
| GPT-5.5 | 高 | 中 | 较好 | 好 | 较好 | 用得少 |
| Composer 2.5 | 低 | 快 | 弱 | 快 | 一般 | 查工单、小活 |
| DeepSeek Pro | 极低 | 快 | 弱 | 一般 | 初筛 | 便宜审查,要人工补 |
三、各模型使用感受
Opus 4.8
我怎么用:大需求开 /grill-with-docs、出 PRD、拆 Issues,重要改动的 AI 审查也用它。
我的感受:
- 思考明显慢,转圈时间长,但想的东西确实全——会反问我「验收标准是什么」「这个 Out-of-Scope 要不要排除」,有时候还会帮我把边界想得更清楚
- 贵,是目前账单里最能感觉到花钱的模型,一个 Grill 会话下来用量肉眼可见
- 写具体代码也能写,但拿它 implement 小 Issue 有点浪费,我基本不用它写 CRUD
和 4.7 比:日常短对话体感差别不大(待验证:超长会话 4.8 可能更稳,我还没专门 A/B 测过)
印象:像资深架构师,慢,但适合「先把方向定死」
Opus 4.7
我的感受:
- 和 4.8 用起来感觉差不多,没感到明显「代差」
- 同样慢、同样贵、同样会追问
- 4.8 排队或限额时直接换 4.7,规划质量没觉得掉档
印象:4.8 的平替,够用了
Sonnet 5
我的感受:
- 官方说 speed + intelligence 平衡,但我用起来体感偏慢,没有 4.6 那种「说干就干」的爽感
- 虽然 token 单价在促销,但用量下得很快,怀疑是 thinking 在背后烧(待验证:没试过调低 effort)
- 能力应该比 4.6 强,但对我来说定位尴尬——定方案不如 Opus 深,写代码不如 4.6 听话省心
印象:试了几回就回到 4.6 了,暂时不是主力
Sonnet 4.6
我怎么用:每个 Issue 新开会话 /implement,工作流里 Phase 1 固定用它。
我的感受:
- 非常听话——Issue 和 Acceptance Criteria 写清楚,基本按条做,很少自作主张大改架构
- 速度、费用都在能接受的范围,比 Opus 省很多
- 让它单独做 Grill 或写大 PRD 深度不够,会漏一些边界考量
- 不适合审自己刚写的代码,和 implement 同模型容易「互相放过」
印象:靠谱的执行者,给清楚任务就稳定交付
GPT-5.3 Codex(我用的 Codex)
我怎么用:主要是 换 OpenAI 审 Claude 写的代码,做 AI 审查那道门。
我的感受:
- 看 diff、找规范问题、对照 Issue 检查 够用
- 不太习惯它的输出风格——文字偏短、偏「任务清单」,写技术方案或 PRD 时缺少 Opus 那种「为什么选 A 不选 B」的讨论
- 不是不能用,是 和 Claude 习惯不一样,prompt 要重新适应
- implement 试过几次,能写,但我更信任 4.6 的「听话」
和其他 Codex 型号:具体用的 5.3,5.1/5.2 没仔细对比过(待验证)
印象:适合当「第二双眼」审代码,不适合当「主笔」写方案
GPT-5.5
我的感受:
- 用得不多,偶尔通用任务
- 比 Codex 写文档像样一点,但 定大方案还是 Opus 更顺
- 费用感知比 Codex 高,和 Opus 档接近,所以不常选
印象:有能力的通用模型,但在我工作流里没占到固定位置
Composer 2.5
我怎么用:查 SCM 工单、快速总结、FAQ 类问答;极小改动有时也用它。
我的感受:
- 快,响应几乎不用等
- 便宜,用量几乎无感,适合高频低价值任务
- 写技术方案 深度不够,Grill 级讨论 hold 不住
- 复杂 Issue implement 不如 4.6 稳,有过改着改着偏题的情况(样本不多,待验证)
印象:日常杂活神器,别拿它干重活
DeepSeek Pro(V4-Pro)
我怎么用:审查阶段 省钱初筛——先看一遍 diff,再人工过,重要改动 Opus/Codex 复审。
我的感受:
- 极便宜,审查几轮也不心疼
- 速度 OK,中文业务场景理解还行
- 考虑不够全面——并发、边界 case、顺手改别的文件这类问题,漏过几次(所以必须人工补)
- 不能当最终审查,只能当第一道筛子
印象:便宜的预审员,后面还得我自己签字
四、按工作流怎么用
1 | Phase 0 规划 Opus 4.8(4.7 也行) |
五、我常用的组合
| 组合 | 什么时候用 | 体感 |
|---|---|---|
| Opus 规划 → Sonnet 写 → Opus 审 → 人工 | 大需求、要上心的改动 | 最稳,贵 |
| Opus 规划 → Sonnet 写 → Codex 审 → 人工 | 想和 Claude 实现隔离 | 推荐,审查视角更独立 |
| Opus 规划 → Sonnet 写 → DeepSeek 审 → 人工 | 想省审查 token | 能用,人工得多看两眼 |
| Composer 查工单 | WTGD 排查、FAQ | 快省,够用 |
六、费用 vs 质量(我的体感)
1 | 质量 |
七、快速决策
- 要想清楚再动手 → Opus 4.8
- Issue 明确了开写 → Sonnet 4.6
- 审别人/AI 写的代码 → 换 Opus 或 Codex,最后人工过
- 查工单、小问答 → Composer 2.5
- 审查想省钱 → DeepSeek 初筛,人工不能省
八、备注
- 上面都是 我个人习惯,换项目、换 prompt 可能不一样
- 带「待验证」的是样本少或没系统对比过,大方向应该对
- 模型更新快,这篇不对了随时改
感受会随模型更新变,当个人备忘用。


