DwarfStar 4：Redis 之父打造 DeepSeek V4 Flash 本地推理引擎，MacBook 上跑出 26 tok/s

DwarfStar 4 的出现标志着本地大模型推理进入了一个新阶段。Redis 之父 antirez 用他一贯的极简主义风格，打造了一个极度专注、性能出色的专用推理引擎。对于 Mac 开发者来说，这意味着可以在本地运行一个 284B 参数的思考模型，速度达到 26 tok/s，配合 1M 上下文窗口和磁盘 KV 缓存，体验接近云端 API。如果你也对本地 AI 推理和 Agent 开发感兴趣，欢迎

m0_58868237

499人浏览 · 2026-05-19 08:04:15

m0_58868237 · 2026-05-19 08:04:15 发布

DwarfStar 4：Redis 之父打造 DeepSeek V4 Flash 本地推理引擎，MacBook 上跑出 26 tok/s

一、背景：本地运行 284B 大模型成为现实

2026 年 5 月，一个开源项目在 GitHub 上迅速获得 10k+ 星标——DwarfStar 4 (ds4)，由 Redis 创始人 Salvatore Sanfilippo（antirez）开发的 DeepSeek V4 Flash 专用本地推理引擎。

在此之前，本地运行 284B 参数的大模型被认为是不切实际的：模型太大、显存不够、推理速度慢。但 DeepSeek V4 Flash 的 MoE（混合专家）架构改变了这一切——每次推理只激活约 30B 参数，配合 2-bit 量化，可以在 MacBook 上流畅运行。

antirez 说：「DeepSeek V4 Flash 很特别，值得一个专用的推理引擎。」

二、DwarfStar 4 是什么

ds4 是一个完全自包含的本地推理引擎，专为 DeepSeek V4 Flash 设计。它不是通用 GGUF 运行器，而是深度定制的单模型引擎。

核心设计哲学

项目的 README 明确说明了几个关键理念：

非通用实现 — 只针对 DSV4 一个模型，不做通用 GGUF loader
KV 缓存是"一等磁盘公民" — 利用现代 MacBook 的高速 SSD，KV 缓存不仅仅存在于 RAM 中，还可以持久化到磁盘
三件套 — 推理引擎 + HTTP API + 特制 GGUF 量化文件，三者配合开箱即用
AI 辅助开发 — 项目使用 GPT 5.5 辅助编码，antirez 主导设计、测试和调试

支持的硬件后端

后端	状态	说明
Metal	✅ 主要目标	MacBook 96GB+ RAM，Mac Studio
CUDA	✅ 支持	DGX Spark（优先），通用 GPU
AMD ROCm	⚠️ rocm 分支	社区维护，antirez 无硬件
CPU	⚠️ 调试用	macOS 有内核 bug，仅限 Linux

三、为什么选择 DeepSeek V4 Flash

antirez 在项目文档中列出了选择 DSV4 作为引擎目标的 8 个理由：

速度快 — MoE 架构，激活参数少，推理更快
思考模式高效 — 思考段长度与问题复杂度成正比，平均仅为其他模型的 1/5
1M token 上下文窗口 — 百万级上下文
284B 参数的知识储备 — 在知识边缘采样时，284B 远胜 27B/35B 模型
英文/意大利文写作质量 — 接近前沿模型水平
极致 KV 压缩 — 支持本地长上下文推理和磁盘 KV 持久化
2-bit 量化可用 — 特殊非对称量化方案，MoE expert 仅用 IQ2_XXS
DeepSeek 将持续更新 V4 Flash — 未来版本会更好

四、实测性能数据

Metal 后端推理速度

设备	量化	场景	Prefill	生成速度
MacBook Pro M3 Max, 128GB	q2	短提示	58.52 t/s	26.68 t/s
MacBook Pro M3 Max, 128GB	q2	11709 tokens	250.11 t/s	21.47 t/s
Mac Studio M3 Ultra, 512GB	q2	短提示	84.43 t/s	36.86 t/s
Mac Studio M3 Ultra, 512GB	q2	11709 tokens	468.03 t/s	27.39 t/s
Mac Studio M3 Ultra, 512GB	q4	短提示	78.95 t/s	35.50 t/s
Mac Studio M3 Ultra, 512GB	q4	12018 tokens	448.82 t/s	26.62 t/s
DGX Spark GB10, 128GB	q2	7047 tokens	343.81 t/s	13.75 t/s

关键观察：Mac Studio M3 Ultra 在 q2 量化下的预填速度达到 468 t/s，意味着载入长上下文几乎瞬间完成。生成速度 27-37 t/s 对于日常编码辅助已经非常可用。

量化精度

ds4 提供两种量化方案：

q2-imatrix（推荐）：96/128GB 设备，仅量化 MoE 路由专家，up/gate 层用 IQ2_XXS，down 层用 Q2_K，共享 expert 和 projection 保持全精度
q4-imatrix：256GB+ 设备，更高精度

imatrix 版本通过权重重要性矩阵（importance matrix）优化量化，在 2-bit 下仍能保持 coding agent 工具调用的可靠性。

五、安装与使用

下载模型

git clone https://github.com/antirez/ds4
cd ds4

# 下载量化模型（推荐 q2-imatrix）
./download_model.sh q2-imatrix

编译

# macOS Metal
make

# Linux CUDA
make cuda-spark     # DGX Spark
make cuda-generic   # 通用 GPU

命令行使用

./ds4 -m ds4flash.gguf -p "用 Python 写一个快速排序" --temp 0

作为服务运行（Agent 模式）

./ds4-server --kv-disk-dir /tmp/ds4-kv

启动 HTTP API 服务（兼容 OpenAI API 格式），然后可以将 Claude Code 等 coding agent 指向本地服务：

export ANTHROPIC_BASE_URL="http://127.0.0.1:8000"
export ANTHROPIC_MODEL="deepseek-v4-flash"
claude

六、专家级功能

磁盘 KV 缓存

这是 ds4 最独特的功能之一。传统本地推理的 KV 缓存完全在 RAM 中，ds4 支持将 KV 状态持久化到磁盘：

./ds4-server --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192

缓存文件结构是自定义的二进制格式（.kv 文件），包含：

渲染文本前缀（SHA1 作为文件名）
精确的 token ID 和图状态
tool-id 映射表（用于精确的 DSML 回复）
四个保存时机：冷启动（cold）、续写（continued）、驱逐（evict）、关闭（shutdown）

这意味着你可以关闭服务器再重启，之前的对话上下文自动恢复，无需重新处理整个提示。

方向控制（Steering）

ds4 支持基于单向量激活方向的模型行为控制（基于《Refusal in Language Models Is Mediated by a Single Direction》论文）：

控制模型回答的详细程度
减少在特定领域的回复意愿
比微调快得多

思考模式

DeepSeek V4 Flash 有三种模式：

模式	说明
非思考（Non-thinking）	直接回复，最快
思考（Thinking）	默认模式，生成思考过程
Think Max	最大深度思考，需足够上下文

可以通过 API 参数 reasoning_effort 或模型别名控制。

测试验证

ds4 使用官方 DeepSeek API 的 logprobs 作为测试向量，确保本地推理与云端结果一致：

make test
./ds4_test --logprob-vectors
./ds4_test --server

测试覆盖短上下文和长上下文（最高验证到 250k tokens 的回溯一致性）。

七、与 llama.cpp 的对比

ds4 不链接 GGML，但 acknowledges llama.cpp 的开创性工作：

维度	llama.cpp + llama-server	DwarfStar 4
定位	通用推理引擎，支持 100+ 模型	单模型深度优化
KV 磁盘缓存	基础支持	一等等民，持久化 + 精确回复
模型支持	广泛	仅 DeepSeek V4 Flash
量化策略	统一量化	非对称 expert 精确量化
Agent 集成	通用 API	原生 Claude Code / 工具调用支持
项目风格	社区化	个人主导 + GPT 辅助

八、适用场景

本地 AI 编程助手 — 取代云 API，在 MacBook 上跑 Claude Code / Codex
隐私敏感场景 — 代码不离开本地，适合企业内网
离线开发环境 — 无网络时仍可使用 AI 辅助
研究与实验 — 测试量化策略、KV 缓存机制、MoE 路由行为
学习推理引擎实现 — antirez 的代码风格清晰，适合学习

九、局限性与注意事项

Alpha 质量 — 项目仅存在几周，稳定性有待验证
硬件门槛高 — 最低 96GB RAM（q2），推荐 128GB+
仅一个模型 — 不支持其他模型，包括未来的 DSV4 更新版需要适配
macOS CPU 路径有内核 Bug — Apple 的虚拟内存实现问题会导致内核崩溃
GGUF 文件需要特定格式 — 不是通用 GGUF loader，必须使用项目提供的量化文件

十、总结

DwarfStar 4 的出现标志着本地大模型推理进入了一个新阶段。Redis 之父 antirez 用他一贯的极简主义风格，打造了一个极度专注、性能出色的专用推理引擎。

对于 Mac 开发者来说，这意味着可以在本地运行一个 284B 参数的思考模型，速度达到 26 tok/s，配合 1M 上下文窗口和磁盘 KV 缓存，体验接近云端 API。

GitHub: https://github.com/antirez/ds4
License: MIT

如果你也对本地 AI 推理和 Agent 开发感兴趣，欢迎关注我的博客 zidongai.com.cn，持续分享 AI 开发工具和实践心得。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

让 Codex 桌面版拥抱 DeepSeek-V4：协议桥接与模型网关接入实践

4SAPI 提供了一套标准的 Chat Completions 接口，完全兼容 DeepSeek V4 Pro 等模型，使用时只需将 base URL 和密钥替换为平台分配的值即可。这样一来，既保留了桥接层的协议转换能力，又获得了网关带来的额外弹性。这样的模型网关，则进一步提升了链路的稳定性和密钥管理的便捷度，尤其适合团队或对服务可用性有更高要求的场景。│Codex 桌面版│ ──────────

AI Agent技术社区

别再迷信“突破限制”：Gemini 3.5-flash 边界测试实战复盘

AI Agent技术社区

Hermes Agent 上下文压缩机制深度剖析：长对话场景下的有损压缩策略

大语言模型的上下文窗口是有限资源。在长对话场景中，Token 数量不可避免地逼近模型的上下文长度上限，此时系统面临两难选择：截断历史导致信息丢失，或超出限制导致 API 报错。Hermes Agent 的上下文压缩引擎（`ContextCompressor`）实现了一套三阶段有损压缩算法，在保持对话连续性的同时将 Token 消耗控制在安全阈值内。本文从源码层面详细分析该机制的算法设计、边界处理、