【LLM】阿里QwQ推理模型

QwQ-32B模型：https://huggingface.co/Qwen/QwQ-32B使用RL训练，没使用传统的奖励模型，使用数学答案检查器、代码执行器等规则奖励。指标和ds基本持平：![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/577da2e96f834735b3e86b7f5e74f594.png)# Reference[1] https://

山顶夕景

429人浏览 · 2025-03-09 14:57:52

山顶夕景 · 2025-03-09 14:57:52 发布

note

一、QwQ-32B

模型：https://huggingface.co/Qwen/QwQ-32B

使用RL训练，没使用传统的奖励模型，使用数学答案检查器、代码执行器等规则奖励。

指标和ds基本持平：
在这里插入图片描述

Reference

[1] https://huggingface.co/Qwen/QwQ-32B
[2] https://qwenlm.github.io/blog/qwq-32b/

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

让 Codex 桌面版拥抱 DeepSeek-V4：协议桥接与模型网关接入实践

4SAPI 提供了一套标准的 Chat Completions 接口，完全兼容 DeepSeek V4 Pro 等模型，使用时只需将 base URL 和密钥替换为平台分配的值即可。这样一来，既保留了桥接层的协议转换能力，又获得了网关带来的额外弹性。这样的模型网关，则进一步提升了链路的稳定性和密钥管理的便捷度，尤其适合团队或对服务可用性有更高要求的场景。│Codex 桌面版│ ──────────

AI Agent技术社区

别再迷信“突破限制”：Gemini 3.5-flash 边界测试实战复盘

AI Agent技术社区

想要转型AI Agent开发？现在开始学，还不晚

用 @tool 装饰器定义工具@tool"""搜索互联网获取实时信息。当需要最新数据时使用此工具。"""# 实际接入 Tavily / Serper 等搜索 APIreturnf"搜索结果：关于 {query} 的最新信息..."@tool"""计算数学表达式，如 '2 + 3 * 4'"""# 绑定工具到模型# 模型会自动决定是否调用工具response = llm_with_tools.inv