50+ 模型一页看清 · 含月成本估算 · 6 步省钱攻略 · 6月最新数据
2026 年 6 月,AI API 市场格局剧变:DeepSeek V4 降价 75% 刷新底线,Claude 4.8 登顶能力榜,GPT-5.5 主攻 Agent 场景,小米 MiMo-V2.5 和 MiniMax M3 加入战局。旗舰层价差已达 50 倍,选对模型不再是"哪个最强",而是"哪个最适合我的场景和预算"。
适合复杂推理、长文档分析、多步 Agent 工作流。当前锚点已切换:Claude 4.8 / GPT-5.5 / Gemini 3.1 Pro 才是应该比较的对象。
| 模型 | 厂商 | 输入 $/1M | 输出 $/1M | 上下文 | 标签 |
|---|---|---|---|---|---|
| GPT-5.5 | OpenAI | 5.00 | 30.00 | 1.05M | 4月新Agent |
| Claude Opus 4.8 | Anthropic | 5.00 | 25.00 | 1M | 5月新推理王 |
| GPT-5.5 Pro | OpenAI | 30.00 | 180.00 | 1.05M | 极贵 |
| GPT-5.4 Pro | OpenAI | 30.00 | 180.00 | 1.05M | 极贵 |
| GPT-5.4 | OpenAI | 2.50 | 15.00 | 1.05M | 通用 |
| Claude Opus 4.7 | Anthropic | 5.00 | 25.00 | 1M | |
| Gemini 3.1 Pro | 2.00 | 12.00 | 1.05M | 2月新 | |
| Grok 4.3 | xAI | 1.25 | 2.50 | 1M | 5月新 |
| o3 | OpenAI | 2.00 | 8.00 | 200K | 推理 |
| GPT-5 | OpenAI | 1.25 | 10.00 | 400K |
创业公司和个人开发者的主力选择。覆盖绝大多数生产场景,成本仅为旗舰的 1/3~1/10。
| 模型 | 厂商 | 输入 $/1M | 输出 $/1M | 上下文 | 标签 |
|---|---|---|---|---|---|
| Claude Sonnet 4.6 | Anthropic | 3.00 | 15.00 | 1M | 推荐2月新 |
| GPT-5.4 Mini | OpenAI | 0.75 | 4.50 | 400K | 性价比 |
| Gemini 3.5 Flash | 1.50 | 9.00 | 1.05M | 推荐5月新 | |
| GPT-5.3-Codex | OpenAI | 1.75 | 14.00 | 400K | 编程 |
| GLM-5.1 | Z.AI | 1.40 | 4.40 | 200K | 4月新Agent |
| DeepSeek V4 Pro | DeepSeek | 0.435 | 0.87 | 1M | 国产最强 |
| MiMo-V2.5-Pro | 小米 | 0.435 | 0.87 | 1M | 国产 |
| Mistral Large 3 | Mistral | 0.50 | 1.50 | 128K | |
| Grok Build 0.1 | xAI | 1.00 | 2.00 | 256K | 编程5月新 |
| MiniMax M3 | MiniMax | 0.30 | 1.20 | 1M | 新 |
高频低复杂度场景的最佳选择。适合分类、摘要、简单问答、数据提取等。部分模型缓存命中价低至 $0.0028/M。
| 模型 | 厂商 | 输入 $/1M | 输出 $/1M | 缓存输入 | 上下文 | 标签 |
|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | DeepSeek | 0.14 | 0.28 | $0.0028 | 1M | 最便宜 |
| MiMo-V2.5 | 小米 | 0.14 | 0.28 | $0.0028 | 1M | 最便宜 |
| Mistral Small 4 | Mistral | 0.10 | 0.30 | — | 128K | |
| Gemini 2.5 Flash-Lite | 0.10 | 0.40 | — | 1M | ||
| Gemini 2.5 Flash | 0.30 | 2.50 | — | 1M | ||
| GPT-5.4 Nano | OpenAI | 0.20 | 1.25 | — | 400K | 超轻 |
| Gemini 3.1 Flash-Lite | 0.25 | 1.50 | — | 1M | 新 | |
| Claude Haiku 4.5 | Anthropic | 1.00 | 5.00 | $0.10 | 200K | 低延迟 |
光看每百万 token 单价不够直观。下面按三种典型用量算月度开支(假设输入:输出 = 10:3,接近真实生产比例)。
适合个人项目、内部工具原型。
| 模型 | 月费用 | 约合人民币 |
|---|---|---|
| DeepSeek V4 Flash | $0.42 | ≈ ¥3 |
| MiMo-V2.5 | $0.42 | ≈ ¥3 |
| Mistral Small 4 | $0.39 | ≈ ¥3 |
| Gemini 2.5 Flash-Lite | $0.52 | ≈ ¥4 |
| GPT-5.4 Mini | $8.70 | ≈ ¥63 |
| Claude Sonnet 4.6 | $75.00 | ≈ ¥540 |
| GPT-5.5 | $79.00 | ≈ ¥570 |
适合早期创业产品、B 端 SaaS。
| 模型 | 月费用 | 约合人民币 |
|---|---|---|
| DeepSeek V4 Flash | $10.70 | ≈ ¥77 |
| MiMo-V2.5 | $10.70 | ≈ ¥77 |
| Gemini 2.5 Flash | $22.50 | ≈ ¥162 |
| GPT-5.4 Mini | $43.50 | ≈ ¥315 |
| Claude Sonnet 4.6 | $375.00 | ≈ ¥2,700 |
| GPT-5.5 | $395.00 | ≈ ¥2,840 |
适合大规模线上产品。
| 模型 | 月费用 | 约合人民币 |
|---|---|---|
| DeepSeek V4 Flash | $107 | ≈ ¥770 |
| MiMo-V2.5 | $107 | ≈ ¥770 |
| GPT-5.4 Mini | $435 | ≈ ¥3,150 |
| Claude Sonnet 4.6 | $3,750 | ≈ ¥27,000 |
| GPT-5.5 | $3,950 | ≈ ¥28,400 |
以下策略经过多个团队实测验证,综合可省 60-80% API 账单。
建一个简单分类器(关键词匹配即可),简单查询→Flash/Small/V4 Flash,只把真正复杂的任务升级到旗舰。实测 70-80% 的请求用经济型就够。
Anthropic 缓存后成本降低 90%,DeepSeek/MiMo 缓存命中输入价仅 $0.0028/M。对于固定 system prompt 的应用(客服、Agent),这是最大的省钱杠杆。
OpenAI Batch API 对非实时任务提供 50% 折扣(24h 内完成)。数据标注、内容批量生成、周报汇总——永远应该走批量端点。
去掉冗余指令、压缩示例、用结构化格式。精心工程化的 prompt 可以比初稿短 30-50%,同时产出更好。每省 100 token = 每月省真金白银。
同一类请求大量调用时,微调一个小模型比用通用大模型更便宜且效果更好。DeepSeek 开源权重、MiMo-V2.5 和 Llama 3.3 70B 都可本地部署。
所有主流厂商提供用量仪表板和消费告警。设置硬性月度上限,防止开发测试阶段的意外账单。特别是接入推理模型初期,token 消耗可能比预期高得多。
几乎所有厂商对低等级账号设置了 RPM(每分钟请求数)和 TPM 限制。OpenAI 和 Anthropic 需要历史用量或预付费才能解锁更高限额。DeepSeek 相对宽松,但高峰期可能排队。如果你的应用需要突发并发,提前升级 tier。
使用 OpenAI、Anthropic 等海外 API 的国内开发者,主流中转服务通常加 10-30% 溢价。DeepSeek 可以直接国内调用,没有这层额外开支——这也是它在国内开发者中特别受欢迎的原因之一。
用于 RAG 和向量搜索的 embedding 模型价格对比:
| 模型 | 厂商 | 价格/1M | 维度 |
|---|---|---|---|
| Gemini Embedding | Free | 768 | |
| text-embedding-3-small | OpenAI | $0.02 | 1,536 |
| Titan Embeddings V2 | Amazon | $0.02 | 1,024 |
| Voyage 3 | Anthropic | $0.06 | 1,024 |
| Mistral Embed | Mistral | $0.10 | 1,024 |
整体趋势是下降。竞争加剧+算力效率提升,最便宜的可用模型比早期旗舰便宜了数十倍。DeepSeek V4 Flash 降价 75% 就是最新案例。但旗舰模型(GPT-5.5 Pro $30/$180)也在向高端市场加码。
DeepSeek 系列是综合考虑价格、中文能力、访问便利性后的最优选择。无需中转溢价、中文理解一线水平、V4 Flash 价格行业最低。但英文场景 Gemini Flash 和 Mistral Small 性价比更高。
在各厂商 Dashboard 设置月度硬性上限。OpenAI 在 Settings → Billing → Usage limit;Anthropic 在 Usage → Set limits;DeepSeek 在控制台 → 用量管理。强烈建议在接入推理模型前就设好上限。
重度使用(月 5 亿 token+)且有 GPU 资源时,本地部署总拥有成本可能更低。DeepSeek、MiMo、Llama 3.3 70B 都可自建。但需要考虑 GPU 显存、运维成本和模型更新滞后。轻度使用永远选 API。
以下是各厂商注册链接。新用户通常有免费额度,建议先试用再决定: