国产大模型 + Hermes 实测对比:DeepSeek、通义千问、Kimi、GLM 谁最好用?
·
DeepSeek V4 Flash 价格仅 $0.14/M tokens,通义千问 Max 中文写作碾压 GPT,Kimi 200 万上下文可以一次读完《三体》三部曲,GLM 智谱支持私有化部署……国产模型在 2026 年已经不是"平替"了,在某些场景甚至比海外模型做得更好。
但问题来了:这些模型在 Hermes Agent 上表现如何? 本文实测四款主流国产模型,覆盖编码、写作、翻译、长文档四个场景,给出选购建议。
一、参测模型与配置
1.1 模型资费一览
| 模型 | 提供商 | 输入价格(/M tokens) | 输出价格(/M tokens) | 上下文长度 |
|---|---|---|---|---|
| DeepSeek V4 Flash | DeepSeek | $0.14 | $0.28 | 1M |
| DeepSeek V4 Pro | DeepSeek | $1.74 | $3.48 | 1M |
| 通义千问 Max | Alibaba DashScope | $0.80 | $3.20 | 256K |
| Kimi (moonshot-v1) | 月之暗面 | $0.50 | $2.00 | 200 万 |
| GLM-5.1 | Z.AI / 智谱 | $0.60 | $2.40 | 128K |
| Qwen3.7-Max | Alibaba DashScope | $1.20 | $4.80 | 128K |
1.2 Hermes 中的配置方式
# DeepSeek
echo 'DEEPSEEK_API_KEY=sk-...' >> ~/.hermes/.env
hermes config set model.provider deepseek
hermes config set model.default deepseek-v4-flash
# 通义千问
echo 'DASHSCOPE_API_KEY=sk-...' >> ~/.hermes/.env
hermes config set model.provider dashscope
hermes config set model.default qwen-max
# Kimi
echo 'KIMI_API_KEY=sk-...' >> ~/.hermes/.env
hermes config set model.provider kimi
# GLM
echo 'GLM_API_KEY=...' >> ~/.hermes/.env
hermes config set model.provider zai
二、场景实测
场景 1:编码(Python FastAPI + PostgreSQL CRUD)
任务: "创建一个用户管理模块,包含注册、登录、获取用户列表三个接口,用 FastAPI + Pydantic v2 + SQLAlchemy 2.0,写测试。"
| 评估维度 | DeepSeek Flash | DeepSeek Pro | 通义千问 Max | Kimi | GLM-5.1 |
|---|---|---|---|---|---|
| 代码正确性 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| 类型注解完整性 | 有的缺了 | ✅ 完整 | 部分缺了 | ✅ 完整 | 部分缺了 |
| 测试覆盖 | 基本覆盖 | ✅ 完整 | 基本覆盖 | ✅ 完整 | 只有主路径 |
| 错误处理 | 基础 try-except | ✅ 完整 | 基础 | ✅ 完整 | 基础 |
| 首次运行通过率 | 85% | 95% | 70% | 90% | 75% |
| 延迟(首 token) | 0.8s | 1.5s | 2.0s | 1.2s | 1.8s |
编码场景结论:
- 首选:DeepSeek V4 Pro — 代码质量最优,价格合理
- 省钱选:DeepSeek V4 Flash — 代码质量足够,价格只有 Pro 的 1/10
- 通义千问和 Kimi 编码能力接近,但不如 DeepSeek 稳定
- GLM 编码能力最弱,不建议用于编程
场景 2:中文技术写作(翻译 + 重写一篇英文技术文档)
任务: "把这篇英文 API 文档翻译成中文技术博客,要求:技术术语保留英文括号标注,句式用中文习惯重组,删掉啰嗦的部分。"
| 评估维度 | DeepSeek Flash | DeepSeek Pro | 通义千问 Max | Kimi | GLM-5.1 |
|---|---|---|---|---|---|
| 翻译准确度 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 中文流畅度 | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| 术语处理 | 有的没标注 | ✅ 规范 | ✅ 非常规范 | ✅ 规范 | 一般 |
| 句式重构 | 一般 | 好 | 非常好 | 好 | 一般 |
| 啰嗦删减 | 不太够 | 好 | 很好 | 好 | 不太够 |
写作场景结论:
- 首选:通义千问 Max — 中文写作一骑绝尘,句式自然、术语规范
- 次选:DeepSeek Pro / Kimi — 都很好
- 通义千问在中文语感上有明显优势,毕竟是阿里达摩院的底子
场景 3:长文档处理(分析一篇 8 万字的技术报告)
任务: "读这篇 8 万字的技术报告,总结核心观点,列出关键数据,指出报告中可能的偏误。"
| 评估维度 | DeepSeek Flash | DeepSeek Pro | 通义千问 Max | Kimi | GLM-5.1 |
|---|---|---|---|---|---|
| 是否一次读完全文 | ✅ 1M 上下文 | ✅ 1M 上下文 | ❌ 截断了 | ✅ 200 万上下文 | ❌ 截断了 |
| 总结准确度 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | N/A(截断) | ⭐⭐⭐⭐⭐ | N/A |
| 关键数据提取 | ⭐⭐⭐ | ⭐⭐⭐⭐ | N/A | ⭐⭐⭐⭐⭐ | N/A |
| 偏误识别 | ⭐⭐⭐ | ⭐⭐⭐⭐ | N/A | ⭐⭐⭐⭐ | N/A |
长文档场景结论:
- 首选:Kimi — 200 万上下文是它最独特的优势,别的模型做不到
- 次选:DeepSeek Pro(1M 上下文也够用)
- Kimi 适合:法律文档分析、学术论文综述、大代码库全局分析
场景 4:代码解释和调试(一个 500 行的 Legacy 代码)
任务: "下面这段 PHP Legacy 代码是干什么的?有没有 Bug?怎么重构?"
| 评估维度 | DeepSeek Flash | DeepSeek Pro | 通义千问 Max | Kimi | GLM-5.1 |
|---|---|---|---|---|---|
| 代码理解 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| Bug 发现 | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐ |
| 重构建议 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ |
| 安全性检查 | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐ | ⭐⭐ |
调试场景结论:
- 首选:DeepSeek Pro — 代码理解和 Bug 发现能力最强
- 次选:DeepSeek Flash / Kimi — 够用
- DeepSeek 在代码方面的优势明显,跟它的训练数据侧重编程有关
三、综合评分
| 场景 | 冠军 | 亚军 | 省钱首选 |
|---|---|---|---|
| 编码 | DeepSeek V4 Pro | Kimi | DeepSeek V4 Flash |
| 中文写作 | 通义千问 Max | DeepSeek Pro | DeepSeek Flash |
| 长文档 | Kimi | DeepSeek Pro | — |
| 代码调试 | DeepSeek V4 Pro | Kimi | DeepSeek V4 Flash |
| 综合性价比 | — | — | DeepSeek V4 Flash |
四、最佳实践:搭配方案
方案 A:极致省钱(月费 $2-8)
# 默认跑 Flash
model:
default: deepseek-v4-flash
provider: deepseek
日常编码、翻译、写作全用 DeepSeek Flash。虽然中文写作不如通义,但价格优势巨大。
方案 B:平衡方案(月费 $8-20)
利用 Profile 系统,不同任务用不同模型:
# Profile: default → DeepSeek Flash(聊天、查资料)
# Profile: coder → DeepSeek Pro(写代码)
# Profile: writer → 通义千问 Max(写文章)
# Profile: research → Kimi(读长文档)
hermes profile create coder --clone
hermes -p coder config set model.default deepseek-v4-pro
hermes profile create writer --clone
hermes -p writer config set model.provider dashscope
hermes -p writer config set model.default qwen-max
hermes profile create research --clone
hermes -p research config set model.provider kimi
方案 C:备用链(故障转移)
# 主用 DeepSeek,它挂了自动切通义
model:
default: deepseek-v4-flash
provider: deepseek
fallback_providers:
- provider: dashscope
model: qwen-max
五、国内用户专属建议
- 网络延迟:所有国产模型在国内直连延迟都很低(<1s)。DeepSeek 和通义最快。不需要代理。
- 价格优势:DeepSeek Flash 的 $0.14/M 是全球最低价之一,比 GPT-4o 便宜约 50 倍
- 中文优势:通义千问 Max 的中文写作质量优于 GPT-5 和 Claude
- 私密部署:GLM 支持私有化部署,适合对数据安全有要求的企业
- 免费额度:Kimi 和通义新用户通常赠送数百万 token 的免费额度
六、一句话总结
写代码找 DeepSeek,写文章找通义,读长文档找 Kimi,私有化部署找 GLM。
但如果你只想装一个——DeepSeek V4 Flash 的性价比让所有竞品望尘莫及,$0.14/M 的价格、1M 上下文、足够好的编码和中文能力。在 Hermes 上把它设为默认模型,一年省下的钱够买几本书了。
更多推荐

所有评论(0)