前言

今年开年以来,随着deepseek开源,开源大模型呈现百花齐放的态势,迭代也不断加快,本地部署成为可能的选项。自2025年1月底开始折腾本地部署以来,测试了多种海鲜市场上容易买到且价格不贵的显卡/计算卡,在此对各卡性能进行记录,供参考。

测试环境

基本硬件

多种显卡基本机遇市场上比较容易买到的二手平台,如E5v4/Xeon Gold/Platinum 1/2代平台。我这里测试用的平台主要有两种:

  • E5 2680v4 x2,256G DDR4 2400,U.2 SSD
  • Xeon Platinum 8259CL x2 ,384G DDR4 2666,U.2 SSD

软件环境

  • Ubuntu Linux 22.04.5 LTS Desktop
  • Ollama最新版本

Ollama如何看输出token速度:

ollama run _model_name_ --verbose

测试数据

以下测试数据默认使用deepseek蒸馏模型,如有使用qwq的会另行标注。

70b模型(Deepseek-R1:70b q4_k_m)

厂商 型号 数量 tokens/s 备注
NV RTX3090 24G 2 16.55

32b模型(Deepseek-R1:32b q4_k_m/QwQ:32b)

厂商 型号 数量 tokens/s 备注
NV RTX3090 24G 1 29.32
NV TESLA V100 SXM2 32G 1 27.03
AMD INSTINCT MI100 32G 1 25.7
AMD INSTINCT MI100 32G 1 23.07 qwq 32b
AMD INSTINCT MI50 16G 2 15.79 qwq 32b
AMD RX7900XT 20G 1 12.42
NV TESLA P40 24G 1 10.75
NV TESLA P100 16G 2 9.53

30b模型(Qwen3:30b q4_k_m)

厂商 型号 数量 tokens/s 备注
NV TESLA V100 SXM2 32G 1 49.56

14b模型(Deepseek-R1:14b q4_k_m)

厂商 型号 数量 tokens/s 备注
NV RTX3090 24G 1 51.99
NV TESLA V100 SXM2 32G 1 48.97
AMD RX7900XT 20G 1 46.67
AMD INSTINCT MI100 32G 1 41.4
AMD INSTINCT MI50 16G 1 32.4
NV RTX3080 10G 1 26.82
NV TESLA P40 24G 1 21.69
NV TESLA P100 16G 1 19.21
APPLE MacMini 4 16G 1 10.66

14b模型(Qwen3:14b fp16)

厂商 型号 数量 tokens/s 备注
NV TESLA V100 SXM2 32G 1 26.25

参考文献

斥“巨资”试水本地部署deepseek - 野蛮人 | 小红书 - 你的生活指南

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐