本地ollama大模型速度慢的优化

摘要：针对RTX 4060 8GB显卡运行Qwen2.5模型时出现性能低下的问题，分析指出根本原因是默认FP16模型超出显存限制。解决方案包括：1）改用4bit量化模型（qwen2.5:7b-q4_K_M）；2）通过环境变量强制启用GPU加速；3）调整API调用参数。优化后预计速度可从3-4 tokens/秒提升至30-45 tokens/秒，性能提升约10倍。文中提供了完整的配置修改命令和参数设

斯班奇的好朋友阿法法

175人浏览 · 2026-04-22 20:51:42

斯班奇的好朋友阿法法 · 2026-04-22 20:51:42 发布

我直接给你最致命、最有效的结论：

你现在这个速度（38秒 130 tokens）= 完全没用到GPU，全靠CPU硬跑！
4060 8GB 正常应该是 30~50 tokens/秒，你现在只有 3~4 tokens/秒，差了10倍！

一、为什么这么卡？

你用的是：

qwen2.5:latest

这个是 FP16 原版模型 = 13GB+
你的 4060 只有 8GB 显存 → 装不下 → 全部丢给CPU → 巨卡

二、1 分钟立刻提速 10 倍（直接复制命令）

1. 换 4bit 量化模型（必须）

ollama pull qwen2.5:7b-q4_K_M

2. 强制 Ollama 用满 GPU

Windows PowerShell 执行：

$env:OLLAMA_NUM_GPU=999
$env:OLLAMA_GPU_LAYERS=35
$env:OLLAMA_KEEP_ALIVE=-1

3. 重启服务

pkill ollama
ollama serve

4. 测试速度

ollama run qwen2.5:7b-q4_K_M "你好"

正常结果：

响应：1秒内
速度：30~45 tokens/秒

三、你 API 调用必须改的模型名

不要用：

qwen2.5:latest

要用：

qwen2.5:7b-q4_K_M

四、我给你最终最优配置（4060 8GB 专用）

from langchain_ollama import ChatOllama

llm = ChatOllama(
    model="qwen2.5:7b-q4_K_M",   # 必改
    num_ctx=2048,                 # 必小
    num_gpu=35,                   # 必开
    temperature=0.7
)

五、改完后预期速度

你现在：
38秒 = 130 tokens

改完后：
3~4秒 = 130 tokens
直接快 10 倍！

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

后端接入 AI Agent：Tool Calling 网关、幂等与审计日志实战

AI Agent技术社区

AI导出鸭惊了！DeepSeek代码手机导出保姆级实操，不看亏一套海景房

AI Agent技术社区

OpenClaw vs Hermes Agent：企业级执行 vs 自我进化，一文读懂怎么选！

AI Agent 开源双子星深度对比：OpenClaw（GitHub 26.4w⭐）主打工程化落地，四层记忆+20+渠道+13,700+技能，适合企业自动化；Hermes Agent（53天10w⭐）主打闭环学习，四级记忆+自动技能进化+3,200+社区技能，越用越聪明。两者可互补组合：OpenClaw 做稳定执行引擎，Hermes 做持续学习大脑。短期落地选 OpenClaw，长期陪伴选 Her