多种廉价显卡/计算卡部署ollama本地推理性能记录
今年开年以来,随着deepseek开源,开源大模型呈现百花齐放的态势,迭代也不断加快,本地部署成为可能的选项。自2025年1月底开始折腾本地部署以来,测试了多种海鲜市场上容易买到且价格不贵的显卡/计算卡,在此对各卡性能进行记录,供参考。
·
多种廉价显卡/计算卡部署ollama本地推理性能记录
前言
今年开年以来,随着deepseek开源,开源大模型呈现百花齐放的态势,迭代也不断加快,本地部署成为可能的选项。自2025年1月底开始折腾本地部署以来,测试了多种海鲜市场上容易买到且价格不贵的显卡/计算卡,在此对各卡性能进行记录,供参考。
测试环境
基本硬件
多种显卡基本机遇市场上比较容易买到的二手平台,如E5v4/Xeon Gold/Platinum 1/2代平台。我这里测试用的平台主要有两种:
- E5 2680v4 x2,256G DDR4 2400,U.2 SSD
- Xeon Platinum 8259CL x2 ,384G DDR4 2666,U.2 SSD
软件环境
- Ubuntu Linux 22.04.5 LTS Desktop
- Ollama最新版本
Ollama如何看输出token速度:
ollama run _model_name_ --verbose
测试数据
以下测试数据默认使用deepseek蒸馏模型,如有使用qwq的会另行标注。
70b模型(Deepseek-R1:70b q4_k_m)
| 厂商 | 型号 | 数量 | tokens/s | 备注 |
|---|---|---|---|---|
| NV | RTX3090 24G | 2 | 16.55 |
32b模型(Deepseek-R1:32b q4_k_m/QwQ:32b)
| 厂商 | 型号 | 数量 | tokens/s | 备注 |
|---|---|---|---|---|
| NV | RTX3090 24G | 1 | 29.32 | |
| NV | TESLA V100 SXM2 32G | 1 | 27.03 | |
| AMD | INSTINCT MI100 32G | 1 | 25.7 | |
| AMD | INSTINCT MI100 32G | 1 | 23.07 | qwq 32b |
| AMD | INSTINCT MI50 16G | 2 | 15.79 | qwq 32b |
| AMD | RX7900XT 20G | 1 | 12.42 | |
| NV | TESLA P40 24G | 1 | 10.75 | |
| NV | TESLA P100 16G | 2 | 9.53 |
30b模型(Qwen3:30b q4_k_m)
| 厂商 | 型号 | 数量 | tokens/s | 备注 |
|---|---|---|---|---|
| NV | TESLA V100 SXM2 32G | 1 | 49.56 |
14b模型(Deepseek-R1:14b q4_k_m)
| 厂商 | 型号 | 数量 | tokens/s | 备注 |
|---|---|---|---|---|
| NV | RTX3090 24G | 1 | 51.99 | |
| NV | TESLA V100 SXM2 32G | 1 | 48.97 | |
| AMD | RX7900XT 20G | 1 | 46.67 | |
| AMD | INSTINCT MI100 32G | 1 | 41.4 | |
| AMD | INSTINCT MI50 16G | 1 | 32.4 | |
| NV | RTX3080 10G | 1 | 26.82 | |
| NV | TESLA P40 24G | 1 | 21.69 | |
| NV | TESLA P100 16G | 1 | 19.21 | |
| APPLE | MacMini 4 16G | 1 | 10.66 |
14b模型(Qwen3:14b fp16)
| 厂商 | 型号 | 数量 | tokens/s | 备注 |
|---|---|---|---|---|
| NV | TESLA V100 SXM2 32G | 1 | 26.25 |
参考文献
更多推荐

所有评论(0)