本地ollama大模型速度慢的优化
摘要:针对RTX 4060 8GB显卡运行Qwen2.5模型时出现性能低下的问题,分析指出根本原因是默认FP16模型超出显存限制。解决方案包括:1)改用4bit量化模型(qwen2.5:7b-q4_K_M);2)通过环境变量强制启用GPU加速;3)调整API调用参数。优化后预计速度可从3-4 tokens/秒提升至30-45 tokens/秒,性能提升约10倍。文中提供了完整的配置修改命令和参数设
·
我直接给你最致命、最有效的结论:
你现在这个速度(38秒 130 tokens)= 完全没用到GPU,全靠CPU硬跑!
4060 8GB 正常应该是 30~50 tokens/秒,你现在只有 3~4 tokens/秒,差了10倍!
一、为什么这么卡?
你用的是:
qwen2.5:latest
这个是 FP16 原版模型 = 13GB+
你的 4060 只有 8GB 显存 → 装不下 → 全部丢给CPU → 巨卡
二、1 分钟立刻提速 10 倍(直接复制命令)
1. 换 4bit 量化模型(必须)
ollama pull qwen2.5:7b-q4_K_M
2. 强制 Ollama 用满 GPU
Windows PowerShell 执行:
$env:OLLAMA_NUM_GPU=999
$env:OLLAMA_GPU_LAYERS=35
$env:OLLAMA_KEEP_ALIVE=-1
3. 重启服务
pkill ollama
ollama serve
4. 测试速度
ollama run qwen2.5:7b-q4_K_M "你好"
正常结果:
- 响应:1秒内
- 速度:30~45 tokens/秒
三、你 API 调用必须改的模型名
不要用:
qwen2.5:latest
要用:
qwen2.5:7b-q4_K_M
四、我给你最终最优配置(4060 8GB 专用)
from langchain_ollama import ChatOllama
llm = ChatOllama(
model="qwen2.5:7b-q4_K_M", # 必改
num_ctx=2048, # 必小
num_gpu=35, # 必开
temperature=0.7
)
五、改完后预期速度
你现在:
38秒 = 130 tokens
改完后:
3~4秒 = 130 tokens
直接快 10 倍!
更多推荐


所有评论(0)