ollama 开启GPU加速

本地ollama跑大模型，简单问题，qwen3.5:2b 执行了27秒，llama3.2:3b执行了17秒，若通过openclaw去跑时间更久，并且占用CPU过大，导致大模型超时宕机，此问题十份头疼。考虑GPU加速，以提升整体性能。

weixin_44085797

1069人浏览 · 2026-04-14 14:06:56

weixin_44085797 · 2026-04-14 14:06:56 发布

本地ollama跑大模型，简单问题，qwen3.5:2b 执行了27秒，llama3.2:3b执行了17秒，若通过openclaw去跑时间更久，并且占用CPU过大，导致大模型超时宕机，此问题十份头疼。考虑GPU加速，以提升整体性能。

性能溯源

（不考虑学习理论直接跳过此章节）
大模型推理本质是海量矩阵乘法 + 大量重复并行计算，
CPU 擅长串行逻辑，GPU 擅长并行计算，两者天生效率差一个数量级。

1. 大模型到底在算什么？

Transformer 模型推理主要做三件事：
矩阵乘法（MatMul）
张量运算
激活函数、归一化等
这些运算有两个特点：
计算量极大
哪怕 2B/3B 小模型，一次生成也要几十亿次浮点运算。
高度可并行
不同神经元、不同 token 的计算互相独立，可以同时算。

2. CPU 为什么慢、还容易卡死？

CPU 核心少（通常 8/12/16 核），擅长复杂逻辑，不擅长并行算数
大模型一来，CPU 只能排队算，导致：
推理极慢（你看到 17~27 秒）
占用 100%
内存 / 缓存爆了 → 超时、宕机
再加 OpenClaw 做代理、封装、转发 → 多一层开销 → 更慢更卡

3. GPU 为什么能瞬间提速？

GPU 的设计就是为了并行计算：
几千～上万个小计算核心（CUDA 核心）
专门对矩阵乘法、张量运算做了硬件优化
一次能同时算成千上万次乘法加法
对比：
CPU：像一个教授慢慢算复杂题
GPU：像一万个小学生同时算加减乘除
大模型推理刚好是后者的完美场景。

4.开启开启GPU加速会发生什么？

作用是：
强制 Ollama 把模型加载到显存
把矩阵计算交给 CUDA 核心而不是 CPU
数据在显存里高速读写，不走慢得多的内存 / 系统总线
结果就是：
速度提升几倍～几十倍
CPU 占用瞬间下降
不会因为 CPU 满载而超时宕机
OpenClaw 转发时压力也小很多

检查并安装环境

执行大模型时，查看GPU使用情况
windows powerShell下
查看Ollama 版的「任务管理器」

ollama ps

# 1秒刷新一次 ollama ps，盯着 PROCESSOR 列
while($true) { cls; ollama ps; Start-Sleep -Seconds 4 }

执行大模型后发现PROCESSOR状态为CPU100%证明GPU未开启，接下来具体查看原因

Ollama 0.20.5 Windows 最低要求
NVIDIA：驱动 ≥ 535.xx、CUDA 计算能力 ≥ 5.0（GTX 1060 及以上）
AMD：需要 ROCm 6.2+ 支持（仅限新卡）
显存 ≥ 4GB（2B 模型最低）

查询本机ollama版本：

ollama --version

查询NVIDIA版本：

nvidia-smi

在这里插入图片描述
NAVIDIA驱动版本低，找匹配型号（我的电脑>属性>设备管理器>网络适配器>具体型号）下载

官方驱动下载地址

在这里插入图片描述
AI跑大模型，要求GameReady驱动，选择对应版本下载

默认升级安装驱动

配置 Ollama GPU 环境变量

右键右下角 Ollama 托盘图标 → 选择 Quit，完全退出服务
按 Win + R，输入 sysdm.cpl 回车，打开系统属性
切换到「高级」选项卡 → 点击「环境变量」
在下方「系统变量」区域，点击「新建」，添加 1 个关键变量：
变量名：OLLAMA_CUDA
变量值：1
点击「确定」保存所有设置，必须重启电脑（环境变量才会生效）
在这里插入图片描述

1.OLLAMA_CUDA=1
作用：强制 Ollama 启用 CUDA GPU 加速，是让 Ollama 识别 NVIDIA 显卡的关键开关。

2.OLLAMA_HOST=0.0.0.0
作用：将 Ollama 服务绑定到所有网络接口，允许局域网内其他设备（如手机、另一台电脑）访问你的 Ollama 服务。

3.OLLAMA_NUM_CTX==16384
作用：设置模型的上下文窗口大小（Context Window），单位是 token，决定模型能记住的对话长度。

4.OLLAMA_NUM_GPU=1
作用：指定 Ollama 使用的 GPU 数量，单显卡填 1，多显卡按实际数量填写。

重启 Ollama 并验证 GPU 加速

重启电脑后，打开 PowerShell 执行：

ollama run qwen3.5:2b
while($true) { cls; ollama ps; Start-Sleep -Seconds 4 }

在这里插入图片描述
整个问题Ollama思考3.8秒，GPU加速完成。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

深度拆解 Headroom：AI Agent 的「上下文压缩层」，Token 暴降 60-95% 的背后原理

AI Agent技术社区

ChatGPT生成excel表格，AI导出鸭帮工程师终结格式乱码噩梦

AI Agent技术社区

《从0到1带你Obsidian接入DeepSeek》

AI Agent技术社区

所有评论(0)

查看更多评论

weixin_44085797

@weixin_44085797

已为社区贡献1条内容

ollama 开启GPU加速

weixin_44085797

性能溯源

1. 大模型到底在算什么？

2. CPU 为什么慢、还容易卡死？

3. GPU 为什么能瞬间提速？

4.开启开启GPU加速会发生什么？

检查并安装环境

配置 Ollama GPU 环境变量

重启 Ollama 并验证 GPU 加速

所有评论(0)

温馨提示：您尚未绑定手机号

weixin_44085797