多种廉价显卡/计算卡部署ollama本地推理性能记录

今年开年以来，随着deepseek开源，开源大模型呈现百花齐放的态势，迭代也不断加快，本地部署成为可能的选项。自2025年1月底开始折腾本地部署以来，测试了多种海鲜市场上容易买到且价格不贵的显卡/计算卡，在此对各卡性能进行记录，供参考。

savage2k

2703人浏览 · 2025-04-21 18:11:28

savage2k · 2025-04-21 18:11:28 发布

多种廉价显卡/计算卡部署ollama本地推理性能记录

前言
测试环境
- 基本硬件
- 软件环境
测试数据

前言

测试环境

基本硬件

多种显卡基本机遇市场上比较容易买到的二手平台，如E5v4/Xeon Gold/Platinum 1/2代平台。我这里测试用的平台主要有两种：

E5 2680v4 x2，256G DDR4 2400，U.2 SSD
Xeon Platinum 8259CL x2 ，384G DDR4 2666，U.2 SSD

软件环境

Ubuntu Linux 22.04.5 LTS Desktop
Ollama最新版本

Ollama如何看输出token速度：

ollama run _model_name_ --verbose

测试数据

以下测试数据默认使用deepseek蒸馏模型，如有使用qwq的会另行标注。

70b模型（Deepseek-R1:70b q4_k_m）

厂商	型号	数量	tokens/s	备注
NV	RTX3090 24G	2	16.55

32b模型（Deepseek-R1:32b q4_k_m/QwQ:32b）

厂商	型号	数量	tokens/s	备注
NV	RTX3090 24G	1	29.32
NV	TESLA V100 SXM2 32G	1	27.03
AMD	INSTINCT MI100 32G	1	25.7
AMD	INSTINCT MI100 32G	1	23.07	qwq 32b
AMD	INSTINCT MI50 16G	2	15.79	qwq 32b
AMD	RX7900XT 20G	1	12.42
NV	TESLA P40 24G	1	10.75
NV	TESLA P100 16G	2	9.53

30b模型（Qwen3:30b q4_k_m）

厂商	型号	数量	tokens/s	备注
NV	TESLA V100 SXM2 32G	1	49.56

14b模型（Deepseek-R1:14b q4_k_m）

厂商	型号	数量	tokens/s
NV	RTX3090 24G	1	51.99
NV	TESLA V100 SXM2 32G	1	48.97
AMD	RX7900XT 20G	1	46.67
AMD	INSTINCT MI100 32G	1	41.4
AMD	INSTINCT MI50 16G	1	32.4
NV	RTX3080 10G	1	26.82
NV	TESLA P40 24G	1	21.69
NV	TESLA P100 16G	1	19.21
APPLE	MacMini 4 16G	1	10.66

14b模型（Qwen3:14b fp16）

厂商	型号	数量	tokens/s	备注
NV	TESLA V100 SXM2 32G	1	26.25

参考文献

斥“巨资”试水本地部署deepseek - 野蛮人 | 小红书 - 你的生活指南

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

试了6款AI编程工具，我只留这2个

AI Agent技术社区

为什么AI功能越发达，电商客服的差评反而越多？

但一个矛盾的现象正在越来越多的客服管理者之间蔓延：技术预算花了，机器人上线了，可客服团队的疲惫感没有减轻，大促期间的排队时长没有显著缩短，而用户投诉中关于“机器人答非所问”“转人工后要重复说三遍”的声音反而增加了。一线客服不再盯着几十个聊天窗口同时回复，而是监控AI Agent的运行状态，处理那些AI无法独立完成的边缘案例——情绪激动的投诉、涉及多方协调的纠纷、超出知识库范围的新品问题。人员流失率