DwarfStar 4:Redis 之父打造 DeepSeek V4 Flash 本地推理引擎,MacBook 上跑出 26 tok/s

一、背景:本地运行 284B 大模型成为现实

2026 年 5 月,一个开源项目在 GitHub 上迅速获得 10k+ 星标——DwarfStar 4 (ds4),由 Redis 创始人 Salvatore Sanfilippo(antirez)开发的 DeepSeek V4 Flash 专用本地推理引擎。

在此之前,本地运行 284B 参数的大模型被认为是不切实际的:模型太大、显存不够、推理速度慢。但 DeepSeek V4 Flash 的 MoE(混合专家)架构改变了这一切——每次推理只激活约 30B 参数,配合 2-bit 量化,可以在 MacBook 上流畅运行。

antirez 说:「DeepSeek V4 Flash 很特别,值得一个专用的推理引擎。」

二、DwarfStar 4 是什么

ds4 是一个完全自包含的本地推理引擎,专为 DeepSeek V4 Flash 设计。它不是通用 GGUF 运行器,而是深度定制的单模型引擎。

核心设计哲学

项目的 README 明确说明了几个关键理念:

  1. 非通用实现 — 只针对 DSV4 一个模型,不做通用 GGUF loader
  2. KV 缓存是"一等磁盘公民" — 利用现代 MacBook 的高速 SSD,KV 缓存不仅仅存在于 RAM 中,还可以持久化到磁盘
  3. 三件套 — 推理引擎 + HTTP API + 特制 GGUF 量化文件,三者配合开箱即用
  4. AI 辅助开发 — 项目使用 GPT 5.5 辅助编码,antirez 主导设计、测试和调试

支持的硬件后端

后端 状态 说明
Metal ✅ 主要目标 MacBook 96GB+ RAM,Mac Studio
CUDA ✅ 支持 DGX Spark(优先),通用 GPU
AMD ROCm ⚠️ rocm 分支 社区维护,antirez 无硬件
CPU ⚠️ 调试用 macOS 有内核 bug,仅限 Linux

三、为什么选择 DeepSeek V4 Flash

antirez 在项目文档中列出了选择 DSV4 作为引擎目标的 8 个理由:

  1. 速度快 — MoE 架构,激活参数少,推理更快
  2. 思考模式高效 — 思考段长度与问题复杂度成正比,平均仅为其他模型的 1/5
  3. 1M token 上下文窗口 — 百万级上下文
  4. 284B 参数的知识储备 — 在知识边缘采样时,284B 远胜 27B/35B 模型
  5. 英文/意大利文写作质量 — 接近前沿模型水平
  6. 极致 KV 压缩 — 支持本地长上下文推理和磁盘 KV 持久化
  7. 2-bit 量化可用 — 特殊非对称量化方案,MoE expert 仅用 IQ2_XXS
  8. DeepSeek 将持续更新 V4 Flash — 未来版本会更好

四、实测性能数据

Metal 后端推理速度

设备 量化 场景 Prefill 生成速度
MacBook Pro M3 Max, 128GB q2 短提示 58.52 t/s 26.68 t/s
MacBook Pro M3 Max, 128GB q2 11709 tokens 250.11 t/s 21.47 t/s
Mac Studio M3 Ultra, 512GB q2 短提示 84.43 t/s 36.86 t/s
Mac Studio M3 Ultra, 512GB q2 11709 tokens 468.03 t/s 27.39 t/s
Mac Studio M3 Ultra, 512GB q4 短提示 78.95 t/s 35.50 t/s
Mac Studio M3 Ultra, 512GB q4 12018 tokens 448.82 t/s 26.62 t/s
DGX Spark GB10, 128GB q2 7047 tokens 343.81 t/s 13.75 t/s

关键观察:Mac Studio M3 Ultra 在 q2 量化下的预填速度达到 468 t/s,意味着载入长上下文几乎瞬间完成。生成速度 27-37 t/s 对于日常编码辅助已经非常可用。

量化精度

ds4 提供两种量化方案:

  • q2-imatrix(推荐):96/128GB 设备,仅量化 MoE 路由专家,up/gate 层用 IQ2_XXS,down 层用 Q2_K,共享 expert 和 projection 保持全精度
  • q4-imatrix:256GB+ 设备,更高精度

imatrix 版本通过权重重要性矩阵(importance matrix)优化量化,在 2-bit 下仍能保持 coding agent 工具调用的可靠性。

五、安装与使用

下载模型

git clone https://github.com/antirez/ds4
cd ds4

# 下载量化模型(推荐 q2-imatrix)
./download_model.sh q2-imatrix

编译

# macOS Metal
make

# Linux CUDA
make cuda-spark     # DGX Spark
make cuda-generic   # 通用 GPU

命令行使用

./ds4 -m ds4flash.gguf -p "用 Python 写一个快速排序" --temp 0

作为服务运行(Agent 模式)

./ds4-server --kv-disk-dir /tmp/ds4-kv

启动 HTTP API 服务(兼容 OpenAI API 格式),然后可以将 Claude Code 等 coding agent 指向本地服务:

export ANTHROPIC_BASE_URL="http://127.0.0.1:8000"
export ANTHROPIC_MODEL="deepseek-v4-flash"
claude

六、专家级功能

磁盘 KV 缓存

这是 ds4 最独特的功能之一。传统本地推理的 KV 缓存完全在 RAM 中,ds4 支持将 KV 状态持久化到磁盘:

./ds4-server --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192

缓存文件结构是自定义的二进制格式(.kv 文件),包含:

  • 渲染文本前缀(SHA1 作为文件名)
  • 精确的 token ID 和图状态
  • tool-id 映射表(用于精确的 DSML 回复)
  • 四个保存时机:冷启动(cold)、续写(continued)、驱逐(evict)、关闭(shutdown)

这意味着你可以关闭服务器再重启,之前的对话上下文自动恢复,无需重新处理整个提示。

方向控制(Steering)

ds4 支持基于单向量激活方向的模型行为控制(基于《Refusal in Language Models Is Mediated by a Single Direction》论文):

  • 控制模型回答的详细程度
  • 减少在特定领域的回复意愿
  • 比微调快得多

思考模式

DeepSeek V4 Flash 有三种模式:

模式 说明
非思考(Non-thinking) 直接回复,最快
思考(Thinking) 默认模式,生成思考过程
Think Max 最大深度思考,需足够上下文

可以通过 API 参数 reasoning_effort 或模型别名控制。

测试验证

ds4 使用官方 DeepSeek API 的 logprobs 作为测试向量,确保本地推理与云端结果一致:

make test
./ds4_test --logprob-vectors
./ds4_test --server

测试覆盖短上下文和长上下文(最高验证到 250k tokens 的回溯一致性)。

七、与 llama.cpp 的对比

ds4 不链接 GGML,但 acknowledges llama.cpp 的开创性工作:

维度 llama.cpp + llama-server DwarfStar 4
定位 通用推理引擎,支持 100+ 模型 单模型深度优化
KV 磁盘缓存 基础支持 一等等民,持久化 + 精确回复
模型支持 广泛 仅 DeepSeek V4 Flash
量化策略 统一量化 非对称 expert 精确量化
Agent 集成 通用 API 原生 Claude Code / 工具调用支持
项目风格 社区化 个人主导 + GPT 辅助

八、适用场景

  1. 本地 AI 编程助手 — 取代云 API,在 MacBook 上跑 Claude Code / Codex
  2. 隐私敏感场景 — 代码不离开本地,适合企业内网
  3. 离线开发环境 — 无网络时仍可使用 AI 辅助
  4. 研究与实验 — 测试量化策略、KV 缓存机制、MoE 路由行为
  5. 学习推理引擎实现 — antirez 的代码风格清晰,适合学习

九、局限性与注意事项

  • Alpha 质量 — 项目仅存在几周,稳定性有待验证
  • 硬件门槛高 — 最低 96GB RAM(q2),推荐 128GB+
  • 仅一个模型 — 不支持其他模型,包括未来的 DSV4 更新版需要适配
  • macOS CPU 路径有内核 Bug — Apple 的虚拟内存实现问题会导致内核崩溃
  • GGUF 文件需要特定格式 — 不是通用 GGUF loader,必须使用项目提供的量化文件

十、总结

DwarfStar 4 的出现标志着本地大模型推理进入了一个新阶段。Redis 之父 antirez 用他一贯的极简主义风格,打造了一个极度专注、性能出色的专用推理引擎。

对于 Mac 开发者来说,这意味着可以在本地运行一个 284B 参数的思考模型,速度达到 26 tok/s,配合 1M 上下文窗口和磁盘 KV 缓存,体验接近云端 API。

GitHub: https://github.com/antirez/ds4
License: MIT


如果你也对本地 AI 推理和 Agent 开发感兴趣,欢迎关注我的博客 zidongai.com.cn,持续分享 AI 开发工具和实践心得。

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐