ollama 开启GPU加速
本地ollama跑大模型,简单问题,qwen3.5:2b 执行了27秒,llama3.2:3b执行了17秒,若通过openclaw去跑时间更久,并且占用CPU过大,导致 大模型超时宕机,此问题十份头疼。考虑GPU加速,以提升整体性能。
本地ollama跑大模型,简单问题,qwen3.5:2b 执行了27秒,llama3.2:3b执行了17秒,若通过openclaw去跑时间更久,并且占用CPU过大,导致 大模型超时宕机,此问题十份头疼。考虑GPU加速,以提升整体性能。
性能溯源
(不考虑学习理论直接跳过此章节)
大模型推理本质是海量矩阵乘法 + 大量重复并行计算,
CPU 擅长串行逻辑,GPU 擅长并行计算,两者天生效率差一个数量级。
1. 大模型到底在算什么?
Transformer 模型推理主要做三件事:
矩阵乘法(MatMul)
张量运算
激活函数、归一化等
这些运算有两个特点:
计算量极大
哪怕 2B/3B 小模型,一次生成也要几十亿次浮点运算。
高度可并行
不同神经元、不同 token 的计算互相独立,可以同时算。
2. CPU 为什么慢、还容易卡死?
CPU 核心少(通常 8/12/16 核),擅长复杂逻辑,不擅长并行算数
大模型一来,CPU 只能排队算,导致:
推理极慢(你看到 17~27 秒)
占用 100%
内存 / 缓存爆了 → 超时、宕机
再加 OpenClaw 做代理、封装、转发 → 多一层开销 → 更慢更卡
3. GPU 为什么能瞬间提速?
GPU 的设计就是为了并行计算:
几千~上万个 小计算核心(CUDA 核心)
专门对矩阵乘法、张量运算做了硬件优化
一次能同时算成千上万次乘法加法
对比:
CPU:像一个教授慢慢算复杂题
GPU:像一万个小学生同时算加减乘除
大模型推理刚好是后者的完美场景。
4.开启开启GPU加速会发生什么?
作用是:
强制 Ollama 把模型加载到显存
把矩阵计算交给 CUDA 核心 而不是 CPU
数据在显存里高速读写,不走慢得多的内存 / 系统总线
结果就是:
速度提升 几倍~几十倍
CPU 占用瞬间下降
不会因为 CPU 满载而超时宕机
OpenClaw 转发时压力也小很多
检查并安装环境
执行大模型时,查看GPU使用情况
windows powerShell下
查看Ollama 版的「任务管理器」
ollama ps
# 1秒刷新一次 ollama ps,盯着 PROCESSOR 列
while($true) { cls; ollama ps; Start-Sleep -Seconds 4 }
执行大模型后发现PROCESSOR状态为CPU100%证明GPU未开启,接下来具体查看原因
Ollama 0.20.5 Windows 最低要求
NVIDIA:驱动 ≥ 535.xx、CUDA 计算能力 ≥ 5.0(GTX 1060 及以上)
AMD:需要 ROCm 6.2+ 支持(仅限新卡)
显存 ≥ 4GB(2B 模型最低)
查询本机ollama版本:
ollama --version
查询NVIDIA版本:
nvidia-smi

NAVIDIA驱动版本低,找匹配型号(我的电脑>属性>设备管理器>网络适配器>具体型号)下载

AI跑大模型,要求GameReady驱动,选择对应版本下载
默认升级安装驱动
配置 Ollama GPU 环境变量
右键右下角 Ollama 托盘图标 → 选择 Quit,完全退出服务
按 Win + R,输入 sysdm.cpl 回车,打开系统属性
切换到「高级」选项卡 → 点击「环境变量」
在下方「系统变量」区域,点击「新建」,添加 1 个关键变量:
变量名:OLLAMA_CUDA
变量值:1
点击「确定」保存所有设置,必须重启电脑(环境变量才会生效)
1.OLLAMA_CUDA=1
作用:强制 Ollama 启用 CUDA GPU 加速,是让 Ollama 识别 NVIDIA 显卡的关键开关。
2.OLLAMA_HOST=0.0.0.0
作用:将 Ollama 服务绑定到所有网络接口,允许局域网内其他设备(如手机、另一台电脑)访问你的 Ollama 服务。
3.OLLAMA_NUM_CTX==16384
作用:设置模型的上下文窗口大小(Context Window),单位是 token,决定模型能记住的对话长度。
4.OLLAMA_NUM_GPU=1
作用:指定 Ollama 使用的 GPU 数量,单显卡填 1,多显卡按实际数量填写。
重启 Ollama 并验证 GPU 加速
重启电脑后,打开 PowerShell 执行:
ollama run qwen3.5:2b
while($true) { cls; ollama ps; Start-Sleep -Seconds 4 }

整个问题Ollama思考3.8秒,GPU加速完成。
更多推荐



所有评论(0)