大模型日报|7 篇必读的大模型论文
大模型日报|7 篇必读的大模型论文

大家好,今日必读的大模型论文来啦!
上海 AI Lab 新研究:1B LLM 超越 405B LLM
测试时扩展(Test-Time Scaling)是通过在推理阶段使用额外计算来提高大语言模型(LLM)性能的重要方法。然而,目前的研究并没有系统地分析策略模型、过程奖励模型和问题难度如何影响测试时扩展。这种分析的缺乏限制了对测试时扩展方法的理解和实际应用。
在这项工作中,来自上海 AI Lab、清华大学的研究团队及其合作者重点讨论了两个核心问题:(1)在不同策略模型、过程奖励模型和问题难度级别之间扩展测试时计算的最佳方法是什么?(2)扩展计算能够在多大程度上提高 LLM 在复杂任务中的性能?通过对 MATH-500 和具有挑战性的 AIME24 任务进行综合实验,他们得出以下结论:(1)计算最优测试时扩展策略高度依赖于策略模型、过程奖励模型和问题难度的选择。(2)使用他们的计算最优测试时扩展策略,极小的策略模型也能胜过较大的模型。例如,在 MATH-500 上,1B LLM 可以超过 405B LLM。此外,在 MATH-500 和 AIME24 上,0.5B LLM 优于 GPT-4o,3B LLM 超过 405B LLM,7B LLM 优于 o1 和 DeepSeek-R1,同时推理效率更高。
这表明了根据每个任务和模型的具体特点调整测试时扩展策略的重要性,并表明测试时扩展是增强 LLM 推理能力的一种很有前途的方法。
论文链接:
https://arxiv.org/abs/2502.06703
MetaChain:用于 LLM agent 的全自动零代码框架
大语言模型智能体(LLM agent)在任务自动化和智能决策方面表现出了卓越的能力,推动了 agent 开发框架(如 LangChain 和 AutoGen)的广泛采用。然而,这些框架主要服务于拥有丰富专业技术知识的开发人员_考虑到全球仅有 0.03% 的人口拥有必要的编程技能,这是一个很大的局限。这种明显的可访问性差距提出了一个基本问题:我们能否让每个人,无论其技术背景如何,都能仅使用自然语言创建自己的 LLM agent?
为了应对这一挑战,香港大学团队推出了一个全自动、高度自主开发的框架——MetaChain,使用户能够仅通过自然语言创建和部署 LLM agent。作为一个自主的 agent 操作系统,MetaChain 由四个关键部分组成:1)agent 系统实用工具;2)LLM 驱动的可执行引擎;3)自管理文件系统;以及 4)自博弈 agent 定制模块。这个轻量级但功能强大的系统能够高效、动态地创建和修改工具、agent 和工作流程,无需编码或人工干预。除了无代码 agent 开发功能外,MetaChain 还是通用 AI 助理的多功能多 agent 系统。
GAIA 基准的综合评估表明,MetaChain 在通用多 agent 任务中的有效性超过了现有的 SOTA 方法。此外,与许多基于 LLM 的替代解决方案相比,MetaChain 的检索增强生成(RAG)相关功能始终表现出卓越的性能。
论文链接:
https://arxiv.org/abs/2502.05957
GitHub 地址:
https://github.com/HKUDS/MetaChain
大型记忆模型 LM2
在这项工作中,Convergence Labs 团队提出了大型记忆模型(LM2),这是一种仅有解码器的 Transformer 架构,通过辅助记忆模块进行了增强,旨在解决标准 Transformer 在多步推理、关系论证和合成分布在长上下文中的信息方面的局限性。LM2 包含一个作为上下文表征存储库的存储模块,通过交叉注意力与输入 token 交互,并通过门控机制进行更新。为了保持 Transformers 的通用能力,LM2 在集成互补记忆路径的同时保持了原有的信息流。
BABILong 基准测试的实验结果表明,LM2 模型在各项任务中的平均表现比记忆增强 RMT 模型高出 37.1%,比基准 Llama-3.2 模型高出 86.3%。LM2 在多跳推理、数字推理和大上下文问题解答方面表现出了强大的能力。在 MMLU 数据集上,它比预训练的 vanilla 模型提高了 5.0%,这表明它的记忆模块不会降低一般任务的性能。此外,他们还探讨了记忆的可解释性、记忆模块的有效性以及测试时行为。他们的研究结果强调了显式记忆在增强 Transformer 架构方面的重要性。
论文链接:
https://arxiv.org/abs/2502.06049
ReasonFlux:通过扩展思维模板进行分层 LLM 推理
在这项工作中,来自普林斯顿大学和北京大学的研究团队提出,通过扩展思维模板进行分层 LLM 推理可以有效优化推理搜索空间,并超越 OpenAI o1-preview 和 DeepSeek V3 等强大 LLM 的数学推理能力。他们的 ReasonFlux-32B 模型仅使用 8 个 GPU 进行训练,并提出了三项创新:(1)一个结构化的通用思维模板库,包含约 500 个高级思维模板,能够泛化到类似或相关的推理问题;(2)在思维模板序列而非长 CoT 上执行分层强化学习,优化基础 LLM,为逐步处理复杂问题规划出最佳模板轨迹;(3)一个全新的推理扩展系统,通过在推理时自适应扩展思维模板,实现分层 LLM 推理。
有了包含顺序思维模板的模板轨迹,ReasonFlux-32B 大大提高了数学推理能力,达到了 SOTA。值得注意的是,在 MATH 基准测试中,它的准确率达到 91.2%,比 o1-preview 高出 6.7%。在美国数学奥林匹克(AIME)基准测试中,ReasonFlux-32B 平均解决了 56.7% 的问题,分别比 o1-preview 和 DeepSeek-V3 高出 27% 和 45%。
论文链接:
https://arxiv.org/abs/2502.06772
Google DeepMind:agency 是取决于框架的
Agency(代理)是一个系统为实现目标而引导结果的能力,是生物学、哲学、认知科学和人工智能领域的核心研究课题。确定一个系统是否具有 agency 能力是一个众所周知的难题:例如,Dennett 早在 1989 年就强调了这样一个难题:确定哪些原则可以决定一块石头、一个恒温器或一个机器人是否都具有 agency 能力。
在这项工作中,Google DeepMind 团队从强化学习的角度来解决这个难题,认为 agency 能力从根本上说是取决于框架的:对系统 agency 的任何测量都必须相对于参考框架进行。为了支持这一主张,他们提出了一个哲学论点,即 Barandiaran 等人(2009)和 Moreno(2018)提出的 agency 的每个基本属性本身都与框架有关。他们的结论是,任何关于 agency 的基础科学都需要框架依赖性,并讨论了这一主张对强化学习的影响。
论文链接:
https://arxiv.org/abs/2502.04403
港大、字节提出「悟空」视频生成式基础模型
在这项工作中,来自香港大学和字节的研究团队提出了一个 SOTA 图像和视频联合生成模型系列 Goku(悟空),其利用整流 Transformer 实现了业界领先的性能。他们详细介绍了实现高质量视觉生成的基本要素,包括数据整理管道、模型架构设计、流程表述以及用于高效、鲁棒的大规模训练的先进基础设施。
Goku 模型在定性和定量评估中表现出了卓越的性能,为主要任务设定了新基准——在文生图任务的 GenEval 和 DPG-Bench 中分别获得了 0.76 和 83.65 的高分,在文生视频任务的 VBench 中获得了 84.85 的高分。
论文链接:
https://arxiv.org/abs/2502.04896
项目地址:
https://saiyan-world.github.io/goku/
南大团队:通过「自我回溯」强化大模型推理
将慢思考机制整合到大语言模型(LLM)中,为实现 L2 AGI 推理器提供了一条大有可为的途径,OpenAI 的 o1 等系统就是很好的例子。然而,一些重大挑战依然存在,包括低效的过度思考和对辅助奖励模型的过度依赖。
在这项工作中,南京大学团队指出,这些局限性源于 LLM 无法将搜索过程内化,而这正是有效推理的关键要素。解决这一问题的关键步骤是让 LLM 自主决定何时何地进行回溯,这是传统搜索算法的基本操作。为此,他们提出了一种自我回溯机制,使 LLM 具备在训练和推理过程中回溯的能力。这种机制通过自我完善将慢思考过程转化为快思考过程,不仅增强了推理能力,还提高了效率。
实证评估表明,该机制显著增强了 LLM 的推理能力,与最优路径监督微调方法相比,性能提高了 40% 以上。
论文链接:
https://arxiv.org/abs/2502.04404
更多推荐

所有评论(0)