9B干翻120B！Qwen3.5小模型发布，ollama接入ClaudeCode实战

Qwen3.5四款小模型（0.8B/2B/4B/9B）于2026-03-02正式发布，凭借Gated DeltaNet线性注意力+Early Fusion多模态架构实现参数效率质变：9B胜GPT-OSS-120B，4B胜GPT-OSS-20B。本文手把手演示5步接入Claude Code，含上下文扩展关键配置、版本选型建议及常见坑点。

︶ㄣ释然

5638人浏览 · 2026-03-05 21:30:28

︶ㄣ释然 · 2026-03-05 21:30:28 发布

文章目录

1、前言
2、快速上手
3、Qwen3.5 小模型全解析
4、接入 Claude Code 详细配置
5、技术原理简析
6、使用建议与注意事项
7、总结

🍃作者介绍：25届双非本科网络工程专业，阿里云专家博主，深耕 AI 原理 / 应用开发 / 产品设计。前几年深耕Java技术体系，现专注把 AI 能力落地到实际产品与业务场景。
🦅个人主页：@逐梦苍穹
🐼GitHub主页：https://github.com/XZL-CODE
✈ 您的一键三连，是我创作的最大动力🌹

在这里插入图片描述

1、前言

昨天（2026-03-02），Qwen3.5 系列小模型正式落地——0.8B、2B、4B、9B 四款版本同步发布，至此整个 Qwen3.5 家族从 0.8B 到 397B 全线贯通。

🔥 为什么说这次发布值得关注？有两个反常识的数据先抛出来：

Qwen3.5-9B（6.6GB 文件）在 MMLU-Pro 上得分 82.5，超过 GPT-OSS-120B 的 78.0
Qwen3.5-4B（3.4GB 文件）在 MMLU-Pro 上得分 79.1，胜过 GPT-OSS-20B 的 74.8

一个下载只要几分钟的小模型，性能碾压参数量多出 10-30 倍的竞品——这正是 Qwen3.5 全新架构带来的参数效率质变。

那为什么要用 ollama 跑，而不是调用云端 API？

零成本：本地跑，没有 token 费用，尤其适合 Claude Code 这种高频调用场景
数据安全：代码和文档不出本地，企业私有化部署的首选
低延迟：局域网通信，响应速度比云端 API 快
可控性：自定义上下文长度、量化精度、并发数量

本文就带你从零开始，5步跑起来，再深入理解背后的技术原理和版本选型逻辑。

2、快速上手

💡 先跑起来，再深入理解。以下 5 步适用于 macOS / Linux，Windows 用户请使用 WSL2。

2.1 安装 ollama

# macOS / Linux 一键安装
curl -fsSL https://ollama.com/install.sh | sh

# 验证安装成功
ollama --version
# 输出示例：ollama version 0.6.x

macOS 用户也可以直接去 ollama.com 下载 .dmg 安装包，安装后自动常驻菜单栏。

2.2 拉取 Qwen3.5 模型

# 按需选择版本（下面会详细介绍怎么选）
ollama pull qwen3.5:0.8b   # 1.0 GB  极致轻量
ollama pull qwen3.5:2b     # 2.7 GB  均衡轻量
ollama pull qwen3.5:4b     # 3.4 GB  个人开发者首选
ollama pull qwen3.5:9b     # 6.6 GB  性能最强小模型（推荐）

# 不指定 tag 默认下载 9b
ollama pull qwen3.5

拉取完成后可以用 ollama list 查看本地已有模型。

2.3 配置环境变量

# 临时配置（当前终端有效）
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_BASE_URL=http://localhost:11434
export ANTHROPIC_API_KEY=ollama

# 永久配置，写入 ~/.zshrc 或 ~/.bashrc
echo 'export ANTHROPIC_AUTH_TOKEN=ollama' >> ~/.zshrc
echo 'export ANTHROPIC_BASE_URL=http://localhost:11434' >> ~/.zshrc
echo 'export ANTHROPIC_API_KEY=ollama' >> ~/.zshrc
source ~/.zshrc

2.4 扩展上下文长度（重要！）

Claude Code 默认需要至少 32K 上下文，ollama 默认只有 2K，必须手动扩展，否则 CC 启动后会报错或功能异常。

# 方式一：启动 ollama 时指定（推荐，立即生效）
OLLAMA_CONTEXT_LENGTH=65536 ollama serve

# 方式二：创建自定义模型（持久化，更稳定）
ollama create qwen3.5-9b-large -f - <<EOF
FROM qwen3.5:9b
PARAMETER num_ctx 65536
EOF

2.5 启动 Claude Code

# 使用原始模型名称
claude --model qwen3.5:9b

# 或使用方式二创建的自定义模型
claude --model qwen3.5-9b-large

启动成功后，你会看到熟悉的 Claude Code 交互界面，只不过背后跑的是本地 Qwen3.5。效果怎么样？看下面的架构图直观感受一下。

在这里插入图片描述

3、Qwen3.5 小模型全解析

3.1 发布时间线与背景

Qwen3.5 系列并非一次性发布完毕，而是分三波梯次推出：

日期	发布内容	定位
2026-02-16	Qwen3.5-397B-A17B（MoE 旗舰）	云端旗舰，对标 GPT-5 级别
2026-02-24	122B-A10B、35B-A3B、27B	中型模型，企业/高端工作站
2026-03-02	9B、4B、2B、0.8B	小模型，个人开发者/边缘端

这种梯次发布策略有其深意：先用旗舰模型证明架构的天花板，再向下延伸证明架构的普适性。Qwen3.5 小模型能"以小胜大"，正是因为和旗舰版本共享了同一套革命性架构设计。

3.2 相比 Qwen3 的核心改进

Qwen3 和 Qwen3.5 看起来只差一个版本号，实际上是架构层面的代际跨越：

3.2.1 统一多模态架构（Early Fusion）

Qwen3 采用"拼接"方案：文字模型 + 视觉编码器分开训练，推理时把图像 token 拼到文字 token 序列里。这种方案耦合度低、灵活，但天花板也低——两个模块优化目标不统一。

Qwen3.5 改用 Early Fusion（早期融合）：文字、图像、视频在同一个 Transformer 编码空间里处理，模型从底层就"原生"理解多模态信息。效果上的体现：

VideoMME 视频理解：9B 达到 84.5，远超同量级竞品
MMMU-Pro 多模态推理：9B 达到 70.1，超过 GPT-5-Nano 的 57.2

3.2.2 全新 Gated DeltaNet 混合注意力

这是 Qwen3.5 速度跃升的核心秘密。传统 Transformer 的注意力机制计算复杂度是 O(n²)——序列长度翻倍，计算量变成 4 倍，这也是长文本推理慢的根本原因。

Qwen3.5 引入 Gated DeltaNet 线性注意力，采用 3:1 混合比例（每 4 层中有 3 层用 DeltaNet 线性注意力 + 1 层全注意力），实现了：

线性时间复杂度：O(n) 而非 O(n²)
比 Qwen3-Max 快 19 倍（同等硬件条件下）
极长上下文（256K，9B 可扩至 100 万 token）下不会显著降速

3.2.3 多语言覆盖大幅扩展

指标	Qwen3	Qwen3.5
支持语言数	119种	201种
词汇表大小	150K token	250K token

词汇表从 150K 扩展到 250K，意味着对非拉丁语系（中文、日语、阿拉伯语等）的编码效率更高，同等上下文能容纳更多有效信息。

3.2.4 Agent 能力跃升

Terminal-Bench 2.0 专门测试 AI 在真实终端环境下完成复杂任务的能力：

Qwen3.5 得分：52.5
Qwen3-Max-Thinking 得分：22.5（上一代旗舰思维链模型）

提升超过 130%，这也是为什么 Qwen3.5 接入 Claude Code 这类 Agent 工具效果这么好的原因。

3.2.5 成本与效率

运行成本降低 60%
FP8 原生支持，内存需求降低 50%
量化后文件体积极小（9B 只有 6.6GB）

3.3 四款小模型详细对比

在这里插入图片描述

规格	0.8B	2B	4B	9B
文件大小（Q4）	1.0 GB	2.7 GB	3.4 GB	6.6 GB
BF16 内存	~1.6 GB	~4 GB	~8 GB	~18 GB
上下文长度	256K	256K	256K	256K~1M
输入模态	文字+图像	文字+图像	文字+图像	文字+图像+视频
MMLU-Pro	29.7	—	79.1	82.5
MMMU（视觉）	49.0	—	—	70.1
MathVista	62.2	—	—	—
OCRBench	74.5	84.5	—	—
VideoMME	—	75.6	—	84.5
推理速度	~140 tok/s	~90 tok/s	~70 tok/s	~50 tok/s

⚠️ 表中"—"并非不支持，而是该版本在该基准上无官方公开数据。

各版本定位简析：

0.8B：极致轻量，1GB 文件，手机端、边缘设备、IoT 场景的唯一选择。MMMU 视觉 49.0 在这个量级属于惊喜水平。
2B：OCRBench 84.5 亮眼，文档识别、发票处理、图片文字提取场景表现出色，且超越众多上代 7B 模型。
4B：MMLU-Pro 79.1，胜过 GPT-OSS-20B 的 74.8，普通笔记本（8GB 内存）可流畅运行，个人开发者的日常编程助手。
9B：各项指标最均衡，强烈推荐，详见下节。

3.4 以小胜大：性能亮点数据

在这里插入图片描述

这张图说明了一个核心论点：参数量不再是性能的决定因素，架构才是。

具体来看几个最震撼的对比：

✅ Qwen3.5-9B（6.6GB）vs GPT-OSS-120B

MMLU-Pro：82.5 vs 78.0，9B 赢了
GPQA Diamond：81.7 vs ~65.0，9B 赢了

✅ Qwen3.5-4B（3.4GB）vs GPT-OSS-20B

MMLU-Pro：79.1 vs 74.8，4B 赢了

✅ Qwen3.5-9B vs GPT-5-Nano（视觉）

MMMU-Pro：70.1 vs 57.2，9B 赢了近 23%

这背后的核心驱动力：Gated DeltaNet 线性注意力 + Early Fusion 多模态 + 250K 词汇表，三者共同带来的参数效率质变。

4、接入 Claude Code 详细配置

4.1 环境变量详解

接入 Claude Code 共需要设置三个环境变量：

# 1. 认证 Token：任意非空字符串即可，ollama 不校验真实性
export ANTHROPIC_AUTH_TOKEN=ollama

# 2. API 地址：将 Claude Code 的请求重定向到本地 ollama
export ANTHROPIC_BASE_URL=http://localhost:11434

# 3. API Key：同 Token，占位用，ollama 不校验
export ANTHROPIC_API_KEY=ollama

原理说明： Claude Code 通过 ANTHROPIC_BASE_URL 决定把请求发到哪里。ollama 提供了兼容 OpenAI API 格式的接口，Claude Code 的请求会被 ollama 转发给本地 Qwen3.5 模型处理，再把结果返回。整个过程完全离线，请求不会离开本机。

4.2 上下文长度关键配置（重点！容易踩坑）

⚠️ 这是最容易翻车的环节，不配置会导致 Claude Code 无法正常启动或频繁出错。

问题根源： ollama 默认上下文窗口只有 2048 tokens，Claude Code 需要至少 32K tokens 来维持正常的工作上下文，差距高达 16 倍。

方式一：启动时指定（临时，重启失效）

# 在启动 ollama 服务时设置全局上下文长度
OLLAMA_CONTEXT_LENGTH=65536 ollama serve

方式二：创建自定义 Modelfile（推荐，持久化）

# 创建并保存为自定义模型名称
ollama create qwen3.5-9b-large -f - <<EOF
FROM qwen3.5:9b
PARAMETER num_ctx 65536
EOF

# 验证创建成功
ollama list
# 应该能看到 qwen3.5-9b-large

# 使用自定义模型启动 Claude Code
claude --model qwen3.5-9b-large

方式三：按版本创建多个配置

# 适合同时使用多个版本的情况
# 4B 配置
ollama create qwen3.5-4b-cc -f - <<EOF
FROM qwen3.5:4b
PARAMETER num_ctx 32768
EOF

# 9B 高性能配置
ollama create qwen3.5-9b-cc -f - <<EOF
FROM qwen3.5:9b
PARAMETER num_ctx 65536
EOF

💡 为什么推荐 65536 而不是 256K？
ollama 实际分配的 KV Cache 与 num_ctx 正相关，设置过大会消耗大量内存。65536（64K）是在内存占用和上下文充裕之间的最优平衡点，足够 Claude Code 日常使用。

4.3 不同版本选哪个？

你的硬件条件	推荐版本	Claude Code 配置	实际体验
4GB 内存	0.8B	`num_ctx 8192`	基础代码补全，速度极快
8GB 内存笔记本	2B 或 4B	`num_ctx 32768`	日常编程助手，体验良好
16GB 内存 / 消费级 GPU	9B	`num_ctx 65536`	最佳综合体验，强烈推荐
工作站 / 服务器	27B+	`num_ctx 65536+`	更强能力，接近云端旗舰

现实建议：如果你有 16GB 内存，直接上 9B。 6.6GB 文件只占内存的一半不到，运行稳定，效果比 4B 有明显提升，而且不需要昂贵的 GPU——M 系芯片 Mac 或 16GB AMD/Intel 笔记本都能流畅运行。

5、技术原理简析

🔍 这一节简短介绍三个关键技术，帮助你理解"为什么 Qwen3.5 这么强"。

5.1 Gated DeltaNet 混合注意力

传统 Transformer 的自注意力是"所有 token 相互关注"，计算量是序列长度的平方（O(n²)）。这意味着：

2K → 8K 上下文：计算量变为 16 倍
8K → 256K 上下文：计算量变为 1024 倍

DeltaNet 是一种线性注意力机制，用矩阵递推替代全量注意力矩阵，将复杂度降到 O(n)。Qwen3.5 的 3:1 混合策略（3层DeltaNet + 1层全注意力）在精度和速度之间取得最优平衡：

短上下文：全注意力层保证质量
长上下文：DeltaNet 层保证速度

结果就是"比 Qwen3-Max 快 19 倍"，而且随上下文增长，速度优势越来越大。

5.2 Early Fusion 多模态架构

“Fusion”（融合）描述的是多模态信息在什么阶段被整合：

Late Fusion（晚期融合，旧方案）：文字和图像分别编码，在最后的输出层合并。优点是模块解耦，缺点是跨模态交互不充分。
Early Fusion（早期融合，Qwen3.5）：文字 token 和图像 patch token 在第一层 Transformer 就开始相互关注。模型从最底层就学会"看着图说话"。

这就是为什么 Qwen3.5-9B 在视频理解（VideoMME 84.5）和多模态推理（MMMU-Pro 70.1）上能超越参数量大得多的竞品。

5.3 Multi-Token Prediction（MTP）

MTP 是预训练阶段的技巧：每一步不只预测下一个 token，而是同时预测接下来的多个 token。

训练效果：等效增加了训练数据量，模型对"未来序列结构"有更强的感知
推理加速：配合 Speculative Decoding 可进一步加速生成速度
实际意义：在代码生成场景中，MTP 让模型更擅长"向前看"，生成的代码结构更合理

6、使用建议与注意事项

6.1 推荐的工作流

# 每次开始工作前，确保 ollama 以正确的上下文长度运行
OLLAMA_CONTEXT_LENGTH=65536 ollama serve &

# 验证模型可用
curl http://localhost:11434/api/tags | python3 -m json.tool

# 设置环境变量
export ANTHROPIC_BASE_URL=http://localhost:11434
export ANTHROPIC_API_KEY=ollama

# 启动 Claude Code
claude --model qwen3.5-9b-large

6.2 常见问题与解决方案

❌ 问题：Claude Code 报 “context length exceeded” 错误

# 原因：num_ctx 设置不足，或 ollama 没有用扩展上下文启动
# 解决：
OLLAMA_CONTEXT_LENGTH=65536 ollama serve
# 或重新创建自定义模型

❌ 问题：响应速度很慢，明显卡顿

# 原因：内存不足，模型被大量 swap 到磁盘
# 解决：降一个版本（比如从9B降到4B），或关闭其他占内存的程序
ollama run qwen3.5:4b

❌ 问题：视觉功能不可用，无法处理图片

# 原因：Qwen3.5 要求 ollama >= 0.5.x 才支持多模态
# 检查版本：
ollama --version
# 如需升级：
curl -fsSL https://ollama.com/install.sh | sh

❌ 问题：启动后 Claude Code 显示模型不兼容

# 原因：模型名称格式问题
# 检查可用模型名称：
ollama list
# 严格使用 ollama list 中显示的名称启动：
claude --model qwen3.5:9b

6.3 性能调优建议

场景	建议配置
内存紧张	使用 Q4 量化（ollama 默认），关闭 `OLLAMA_GPU_OVERHEAD`
追求速度	设置 `OLLAMA_NUM_PARALLEL=1`，减少调度开销
多任务并行	设置 `OLLAMA_MAX_LOADED_MODELS=2`，允许多模型同时驻留
长文本处理	9B + `num_ctx 131072`，确保足够上下文

6.4 局限性说明

本地跑 Qwen3.5 相比云端 API 有一些客观限制，要有心理预期：

速度：9B 约 50 tok/s，4B 约 70 tok/s，比云端 API 慢（云端服务商用 A100/H100 集群跑），但对于 Claude Code 这类边思考边等待的场景，体感尚可接受
推理能力上限：9B 不是旗舰，对于极复杂的多步骤推理任务可能力不从心，此时建议换用云端旗舰模型
多模态上传：Claude Code 目前对多模态的支持取决于客户端版本，请以实际版本为准

7、总结

Qwen3.5 小模型系列（0.8B/2B/4B/9B）于 2026-03-02 正式发布，完成了整个 Qwen3.5 家族从边缘端到旗舰端的全线贯通。

几个值得记住的核心结论：

架构革命性升级：Gated DeltaNet 线性注意力 + Early Fusion 多模态 + 250K 词汇表，三重升级共同驱动参数效率质变
以小胜大已成现实：9B（6.6GB）胜 120B 级竞品，4B（3.4GB）胜 20B 级竞品，不是营销说辞，是真实基准数据
本地部署门槛极低：16GB 内存的普通电脑就能流畅运行 9B，成本为零，数据不出本地
接入 Claude Code 三步走：ollama pull → 设环境变量 → 扩展上下文长度，没有复杂配置

如果你只想记住一件事：有 16GB 内存就上 9B，现在就跑起来。

# 一键启动（确保 ollama 已安装）
ollama pull qwen3.5:9b && \
OLLAMA_CONTEXT_LENGTH=65536 ollama serve &
export ANTHROPIC_BASE_URL=http://localhost:11434 && \
export ANTHROPIC_API_KEY=ollama && \
claude --model qwen3.5:9b

如果这篇文章对你有帮助，点个 👍 支持一下，也欢迎在评论区分享你跑下来的实际效果！

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

“不可替代内容”=GEO 核心：AI 抄不走的经验、数据、案例

当 Gemini、各类生成式 AI 全面渗透谷歌搜索，GEO（生成式引擎优化）正式从可选玩法变成所有英文独立站、跨境站点、垂直内容站的必做项之后，行业里出现了一种普遍的焦虑：AI 可以在几秒内生成一篇完整文案、整理行业知识、仿写页面内容，人工创作的常规内容正在快速失去竞争力。把亲自使用总结的经验、反复测试得出的数据、一步步落地的案例，转化为网站内容，既能补齐 E-E-A-T 四大维度的评分短板，建

AI Agent技术社区

零信任，验证一切！Anthropic发布企业自主智能体安全白皮书

AI Agent 正在接管越来越多的事务，从搜索网页、综合信息到调用数据库、操作文件系统，全程无需人工介入。Anthropic 刚发布了 Zero Trust 安全白皮书：Zero Trust for AI Agents（对AI智能体零信任）。白皮书提出了一个尖锐的问题：当 Agent 能以机器速度行动，你的安全体系跟得上吗？白皮书内容梳理了包括 Agent 面临的新威胁、六个安全能力域的三级路线