我的 AI 模型选型对比

个人使用备忘 · 感受来自日常开发，不一定完全准确
配合《我的AI编程工作流》· 索引见《AI编程-个人文档索引》
最后更新：2026-07-03

一、一句话选型

场景	我一般用	备选
定技术方案 / Grill / PRD	Opus 4.8	Opus 4.7
写代码 / Implement	Sonnet 4.6	Composer 2.5
AI 审查	Opus 4.8 或 GPT-5.3 Codex	DeepSeek Pro
人工审查	我自己	—
查工单 / 快问快答	Composer 2.5	—

二、总览（我的主观打分）

模型	费用感知	速度感受	定方案	写代码	审查	一句话
Opus 4.8	贵	慢	★★★★★	好	很好	定方案专用，贵但值得
Opus 4.7	贵	慢	★★★★☆	好	很好	和 4.8 日常差不多
Sonnet 5	中高	偏慢	好	好	好	卡在中间，我很少用
Sonnet 4.6	中	还行	够用	★★★★★	够用	写代码主力
GPT-5.3 Codex	中	中	一般	专精	好	审查换厂商用
GPT-5.5	高	中	较好	好	较好	用得少
Composer 2.5	低	快	弱	快	一般	查工单、小活
DeepSeek Pro	极低	快	弱	一般	初筛	便宜审查，要人工补

三、各模型使用感受

Opus 4.8

我怎么用：大需求开 /grill-with-docs、出 PRD、拆 Issues，重要改动的 AI 审查也用它。

我的感受：

思考明显慢，转圈时间长，但想的东西确实全——会反问我「验收标准是什么」「这个 Out-of-Scope 要不要排除」，有时候还会帮我把边界想得更清楚
贵，是目前账单里最能感觉到花钱的模型，一个 Grill 会话下来用量肉眼可见
写具体代码也能写，但拿它 implement 小 Issue 有点浪费，我基本不用它写 CRUD

和 4.7 比：日常短对话体感差别不大（待验证：超长会话 4.8 可能更稳，我还没专门 A/B 测过）

印象：像资深架构师，慢，但适合「先把方向定死」

Opus 4.7

我的感受：

和 4.8 用起来感觉差不多，没感到明显「代差」
同样慢、同样贵、同样会追问
4.8 排队或限额时直接换 4.7，规划质量没觉得掉档

印象：4.8 的平替，够用了

Sonnet 5

我的感受：

官方说 speed + intelligence 平衡，但我用起来体感偏慢，没有 4.6 那种「说干就干」的爽感
虽然 token 单价在促销，但用量下得很快，怀疑是 thinking 在背后烧（待验证：没试过调低 effort）
能力应该比 4.6 强，但对我来说定位尴尬——定方案不如 Opus 深，写代码不如 4.6 听话省心

印象：试了几回就回到 4.6 了，暂时不是主力

Sonnet 4.6

我怎么用：每个 Issue 新开会话 /implement，工作流里 Phase 1 固定用它。

我的感受：

非常听话——Issue 和 Acceptance Criteria 写清楚，基本按条做，很少自作主张大改架构
速度、费用都在能接受的范围，比 Opus 省很多
让它单独做 Grill 或写大 PRD 深度不够，会漏一些边界考量
不适合审自己刚写的代码，和 implement 同模型容易「互相放过」

印象：靠谱的执行者，给清楚任务就稳定交付

GPT-5.3 Codex（我用的 Codex）

我怎么用：主要是 换 OpenAI 审 Claude 写的代码，做 AI 审查那道门。

我的感受：

看 diff、找规范问题、对照 Issue 检查够用
不太习惯它的输出风格——文字偏短、偏「任务清单」，写技术方案或 PRD 时缺少 Opus 那种「为什么选 A 不选 B」的讨论
不是不能用，是 和 Claude 习惯不一样，prompt 要重新适应
implement 试过几次，能写，但我更信任 4.6 的「听话」

和其他 Codex 型号：具体用的 5.3，5.1/5.2 没仔细对比过（待验证）

印象：适合当「第二双眼」审代码，不适合当「主笔」写方案

GPT-5.5

我的感受：

用得不多，偶尔通用任务
比 Codex 写文档像样一点，但 定大方案还是 Opus 更顺
费用感知比 Codex 高，和 Opus 档接近，所以不常选

印象：有能力的通用模型，但在我工作流里没占到固定位置

Composer 2.5

我怎么用：查 SCM 工单、快速总结、FAQ 类问答；极小改动有时也用它。

我的感受：

快，响应几乎不用等
便宜，用量几乎无感，适合高频低价值任务
写技术方案 深度不够，Grill 级讨论 hold 不住
复杂 Issue implement 不如 4.6 稳，有过改着改着偏题的情况（样本不多，待验证）

印象：日常杂活神器，别拿它干重活

DeepSeek Pro（V4-Pro）

我怎么用：审查阶段 省钱初筛——先看一遍 diff，再人工过，重要改动 Opus/Codex 复审。

我的感受：

极便宜，审查几轮也不心疼
速度 OK，中文业务场景理解还行
考虑不够全面——并发、边界 case、顺手改别的文件这类问题，漏过几次（所以必须人工补）
不能当最终审查，只能当第一道筛子

印象：便宜的预审员，后面还得我自己签字

四、按工作流怎么用

Phase 0 规划        Opus 4.8（4.7 也行）
Phase 1 实现        Sonnet 4.6
Phase 2 AI 审查     Opus 4.8 / Codex（换厂商）
                    或 DeepSeek 初筛 + 人工
Phase 2 人工审查    我自己（必做）
日常查工单          Composer 2.5

五、我常用的组合

组合	什么时候用	体感
Opus 规划 → Sonnet 写 → Opus 审 → 人工	大需求、要上心的改动	最稳，贵
Opus 规划 → Sonnet 写 → Codex 审 → 人工	想和 Claude 实现隔离	推荐，审查视角更独立
Opus 规划 → Sonnet 写 → DeepSeek 审 → 人工	想省审查 token	能用，人工得多看两眼
Composer 查工单	WTGD 排查、FAQ	快省，够用

六、费用 vs 质量（我的体感）

          质量
           ↑
Opus ●     │      GPT-5.5 ●
Sonnet 5 ● │
           │           Sonnet 4.6 ●
Codex ●    │
           │      Composer ●
           │           DeepSeek ●
           └────────────────→ 费用（越低越右）

七、快速决策

要想清楚再动手 → Opus 4.8
Issue 明确了开写 → Sonnet 4.6
审别人/AI 写的代码 → 换 Opus 或 Codex，最后人工过
查工单、小问答 → Composer 2.5
审查想省钱 → DeepSeek 初筛，人工不能省

八、备注

上面都是 我个人习惯，换项目、换 prompt 可能不一样
带「待验证」的是样本少或没系统对比过，大方向应该对
模型更新快，这篇不对了随时改

脑瓜呆呆

记录 Java 后端、中间件、搜推算法、产品与管理类读书笔记。从 2021 年写到现在的个人学习笔记。

我的 AI 模型选型对比

一、一句话选型

二、总览（我的主观打分）

三、各模型使用感受

Opus 4.8

Opus 4.7

Sonnet 5

Sonnet 4.6

GPT-5.3 Codex（我用的 Codex）

GPT-5.5

Composer 2.5

DeepSeek Pro（V4-Pro）

四、按工作流怎么用

五、我常用的组合

六、费用 vs 质量（我的体感）

七、快速决策

八、备注