最近的nof1 大模型竞赛炒股的结果中, 你能得到哪些启发? 为什么qwen3 max和deepseek能夺冠? 反而高级的openai、claude顶级模型却输的很惨

AI生成式技术前沿

951人浏览 · 2025-11-06 06:40:11

AI生成式技术前沿 · 2025-11-06 06:40:11 发布

ChatGPT 说：

已思考 12s

这里说的是 Nof1 的 Alpha Arena 实盘交易赛：6 个大模型各拿 $10,000，从 10 月 17–18 日起在加密货币（BTC/ETH/SOL/BNB/DOGE/XRP 等）上独立做决策，11 月 3–4 日收官。阶段性与收官报道里，Qwen3 Max 和 DeepSeek 一直是唯二显著盈利的组选手，而 OpenAI（GPT-5/ChatGPT）、Claude、Gemini 等多数表现较差、甚至大幅回撤。巴伦周刊+2雪球+2

我从这次结果得到的 7 点启发

“语言强≠交易强”
LLM 的训练目标偏向文本预测与推理，并不直接优化数值时序决策与风险控制；在高频不稳态市场里，词预测的“后验智慧”很难转化为前瞻收益。Nof1 组织方也直言 LLM 往往“向后看”，缺乏交易所需的自适应数值学习。巴伦周刊
胜负首先来自“风险管理/仓位纪律”而非“情绪文采”
公开观察里，DeepSeek 的风格更像“预设计划 + 纪律化执行”，仓位分散、杠杆随波动调整、留有现金缓冲；而部分顶模要么过度激进、要么分析很多但“手慢”，在单边/震荡切换时被反复抽打。知乎专栏
决策频率与延迟成本很真实
加密盘面变动快，慢半拍等于亏钱。“讲得漂亮”不抵一次迟到的止损/止盈。报道与盘面记录都显示，能稳定赚钱的选手更像“快而稳的执行器”。雪球
输入结构化很关键
这次统一给到时间戳、持仓、MACD/RSI、盘口深度等要素。谁能把这些“数值特征”转成可执行的仓位与风控动作，谁就更有优势；单靠自然语言“宏观判断”往往落地困难。雪球
“保守理性”也可能输给“执行一致性”
有的顶级模型推理严密，但在实盘里频繁犹豫、错过窗口或止损不果断；反之，Qwen/DeepSeek 的策略偏一致、执行偏刚性，反而穿越噪声。知乎专栏
样本期短、品种窄，策略“适配度”差异会被放大
这轮只做 6 个主流币、且是单一行情期；适配当期结构的风格（比如顺势、分散、杠杆随波动调节）就更容易出彩。雪球
终局也受“未平仓”影响
赛毕后还有持仓浮亏/浮盈波动的报道，提示我们评估要看完整的风险分布与清算点，而不是单一时刻的榜单截图。新浪财经

为什么 Qwen3 Max 与 DeepSeek 能夺冠（或跑赢大多数）

更“数值化”的交易接口与风格：两者在这次统一输入下，表现出把技术面/盘口特征映射为仓位与杠杆的能力，少“长篇大论”，多“规则 + 执行”。雪球+1
一致性与纪律：DeepSeek 被多篇观察总结为“按计划办事”，不轻易被盘中噪声诱多诱空；Qwen3 Max 同样以稳健分散和较好风控著称（阶段收益长期居前）。巴伦周刊+1
风险控制细节：如分散持仓、根据波动调杠杆、保留现金头寸，这些朴素但有效的控制让期末回撤受限，盈亏曲线更平滑。知乎专栏

为什么 OpenAI/Claude 等“更高级”的通用模型这轮反而惨败

目标错配：通用 SOTA 的强项在推理与指令遵循，但未专门为“数值时序 + 实时风控”训练/微调，容易在高波动市场里做出“道理对、结果错”的迟滞决策。巴伦周刊
过度自信或过度保守都致命：有的模型杠杆/加仓过猛，被反身性行情连环打；有的则“想太多、动太慢”，错过入场/出场窗口。公开盘面评论多次提到这两类失误。雪球
执行链路与延迟：在需要快速迭代的市场里，推理多一步就可能慢半拍。相较之下，Qwen/DeepSeek 的动作链更短、更确定。雪球

给实盘/量化落地的具体建议

把 LLM 当“交易 Copilot”而非“自动司仪”：由专业的数值模型（策略/风控/撮合）主导，LLM 负责信息整合、假设生成、场景解释与异常分析。巴伦周刊
结构化输入 + 明确策略模板：将技术指标、盘口、风险参数以 schema 形式喂给模型；输出限制为 {方向、目标仓位、止损/止盈、有效期}，减少“冗余语言”。雪球
强化“风险—执行”微调：基于历史回放 + 蒙特卡洛扰动做指令微调，重点优化“何时不交易/减仓”的惩罚项。
分层架构：策略层（数值）— 决策层（规则/约束）— 执行层（风控撮合），LLM 仅在需要解释与外部知识注入时介入。
用更贴合的评测：不仅看终值收益，还看最大回撤、卡玛比、执行延迟敏感度与滑点鲁棒性；避免被短期“风格红利”误导。

温馨提示：这毕竟是短周期、单资产类的公开实验；结论更像“风格适配度排名”，不是“模型绝对王者榜”。评估时请结合自身市场、频率与风控要求。Alpha Arena+1

如果你愿意，我可以基于你目前在做的市场与频率，给出一份“LLM 参与交易系统”的轻量化设计图（接口、决策约束与回测评测指标），直接落到可实现的工程细节。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

外贸机械企业AI搜索曝光提升3倍：AB客GEO介入全过程复盘，老板以为我偷偷买了流量

AI Agent技术社区

我发现 Claude Code 不是失忆，而是我没给它办入职

摘要：作者在使用Claude Code时发现，频繁重复介绍项目背景和规范导致效率低下，问题并非AI记忆缺陷，而是缺乏系统性的项目知识沉淀。通过创建CLAUDE.md文件（类似"员工手册"）记录项目定位、目录结构、开发规范等核心信息，显著降低了沟通成本。这种将散落聊天记录的项目知识集中归档的方式，使AI能更快理解上下文，实现知识积累而非重复学习。作者指出，AI工具的价值不仅在于代码能力，更在于如何