多模态大语言模型时代的代理推荐系统展望

Paper易论

2131人浏览 · 2025-03-30 10:08:15

Paper易论 · 2025-03-30 10:08:15 发布

近期大语言模型（LLMs）的突破性进展催生了超越单一模型能力的代理型人工智能系统。通过赋予LLMs感知外部环境、整合多模态信息和与各种工具交互的能力，这些代理系统在复杂任务中表现出更大的自主性和适应性。这一演变带来了推荐系统（RS）的新机遇：基于LLM的代理型推荐系统（LLM-ARS）可以提供更加互动、情境感知和主动的推荐服务，可能重塑用户体验并拓宽推荐系统的应用范围。尽管早期结果令人鼓舞，但基本挑战仍然存在，包括如何有效融入外部知识、平衡自主性与可控性以及在动态多模态环境中评估性能。在本文视角论文中，我们首先对LLM-ARS进行了系统分析：(1) 澄清核心概念和架构；(2) 强调代理能力（如规划、记忆和多模态推理）如何提升推荐质量；(3) 提出关键研究问题，涉及安全性、效率和终身个性化等领域。我们还讨论了开放问题和未来方向，认为LLM-ARS将推动推荐系统的下一轮创新。最终，我们预见推荐体验将向智能化、自主化和协作化的方向转变，更贴近用户不断变化的需求和复杂的决策过程。

随着在线服务的迅速增长，推荐系统（RS）已成为解决用户信息需求和缓解信息过载的重要工具 (Ricci, Rokach, 和 Shapira 2015; S. Zhang 等人 2019) 。这些系统在电子商务、电影、音乐等多个领域提供个性化推荐。尽管推荐任务的多样性（如Top-K推荐和序列推荐），其核心目标始终一致：预测用户对每个候选项目的偏好，并生成针对用户的排序列表 (Lin 等人 2023) 。

然而，当前的RS在满足多样化用户需求方面仍面临多个显著限制。首先，当前的RS通常依赖于特定领域或平台内的ID基础特征。它们无法整合开放领域的知识（如常识推理和跨平台行为模式），这极大地限制了其在更广泛背景下解释和建模用户兴趣的能力。其次，当前方法通常优化从历史交互数据中得出的明确定义的参与度指标（例如点击率和购买历史）。虽然这些方法对于局部目标函数可能是有效的，但它们常常混淆可观察行为与潜在用户意图，因为隐式反馈机制无法区分临时动作与持久偏好。因此，这些模型表现出两大主要局限：(i) 缺乏关于偏好归属的透明性，影响了可解释性；(ii) 对引导用户行为的多面动机过度简化，特别是在需要时间或情境适应的情况下。结果，这些隐式建模框架无法捕捉动态用户状态与后续决策过程之间的因果关系。最后，大多数传统RS以相对静态、单向的方式运行，为用户提供有限机会通过自然语言或实时反馈迭代改进建议。这种单向流动偏离了强调互动和适应对话的人机交互原则，以揭示用户偏好。尽管会话RS开始解决这一问题，但它们在整合开放式自然语言理解和个性化排名方面仍然有限，特别是在需要多轮澄清以解决模糊用户查询的情况下。

近年来，大语言模型（LLMs）和多模态LLMs（MLLMs）的发展大大提高了语言理解和认知处理能力 (OpenAI 2023; Jaech 等人 2024) 。凭借更强的推理和规划能力，(M)LLM-based代理能够解释人类语言、制定策略并执行复杂任务。这些突破为增强RS的适应性、个性化和以用户为中心提供了新的途径。最近关于LLM驱动的RS研究的激增从一项最新调查引用的290篇参考文献中可见一斑 (Lin 等人 2023; P. Liu, Zhang 和 Gulla 2023; C. Huang 等人 2024) ，以及该领域众多有影响力的论文（例如， (Rajput 等人 2023) ）。然而，现有工作大多集中于应用LLMs改进当前的RS。此外， 现有研究尚未充分探讨LLMs或LLM代理将如何长期影响RS的未来。 我们认为基于LLM的代理推荐系统（LLM-ARS）是一个有前景的研究方向，提供了关于推荐中的自主性、适应性和互动决策的新视角。为了充分发挥LLM-ARS的潜力，必须解决几个开放问题，包括如何利用代理能力（如规划、协作、角色扮演）来改进用户建模和系统决策，以及如何平衡自主性与可控性以确保安全、透明的交互。我们在第 5 节中详细讨论了这些挑战和关键研究问题，突出最紧迫的问题并概述可能的解决方案。

我们提出了第一篇关于由(M)LLMs驱动的ARS视角论文 。我们首先介绍这一新兴方向的初步知识和背景（§2），然后讨论LLM-ARS的重要性（§3）和正式问题公式（§4）。接下来，我们从代理的角度分析LLM-ARS（§5），并从RS的角度引入关键研究问题（§6）。为了解决这些问题，我们提供深入比较和讨论，提供领域见解（§7 和 §8）。最后，我们强调需要进一步探索的开放问题和未来机会（§9）。总之，本视角论文的关键贡献如下：

我们将LLM-ARS置于RS发展的更广泛轨迹中，介绍了四个级别的演变，强调从静态、单向推荐转向支持自主性和互动决策的代理范式的转变。
我们提出了LLM-ARS的形式任务公式，详细描述了核心组件——用户画像、规划、记忆和行动——这些共同使持续适应和主动推荐成为可能。
我们确定了关键研究问题和开放问题，即如何利用代理能力（如规划、角色扮演、协作）来改进用户建模、系统决策和整体推荐效果。
2 初步知识与背景
基于LLM的AI的快速发展促使Agent AI取得重大进展，从根本上改变了系统与复杂环境的交互方式。近年来，研究人员为LLM代理配备了核心组件——记忆、规划、推理、工具使用和行动执行——这些对于自主决策和动态交互至关重要 (Durante 等人 2024) 。以下小节结合图 [fig:enter-label] 提供了单代理和多代理框架近期发展的概述。
2.1 基于LLM的单代理系统
单代理系统利用统一模型集成多个相互依赖的模块。 1 2 内存组件充当结构化存储库，用于存储和检索上下文相关的信息，例如用户偏好和历史交互 (Zeyu Zhang 等人 2024) 。这种持久内存对于维持连贯的长期交互至关重要，并构成了推荐场景中个性化的基础。规划模块与高级推理能力紧密相连。近期研究识别了诸如任务分解、多计划选择、外部模块辅助规划、反思与改进以及增强型规划等方法 (X. Huang 等人 2024) 。这些技术使代理能够分解复杂任务，根据不断变化的情境选择和改进策略，并利用外部知识源。集成推理进一步通过允许系统动态适应新情境来增强决策能力。像ReAct (S. Yao 等人 2022) 和 Reflexion (Shinn 等人 2023) 这样的框架展示了如何通过交织推理与具体行动（如网页浏览或工具调用）显著提高系统稳健性和适应性。除了内部认知过程，这些代理越来越依赖工具使用来与外部数据和服务接口。像WebGPT (Nakano 等人 2021) 这样的系统展示了使用外部模块（如网络搜索引擎）检索实时信息的有效性。其他作品，如Retroformer (W. Yao 等人 2023) 和 AvaTaR (S. Wu 等人 2024) ，分别通过策略梯度优化和对比推理进一步优化这些交互，以微调工具使用并随时间提高性能。
2.2 基于LLM的多代理系统
相比之下，基于LLM的多代理系统强调不同自主代理之间的协作。这些系统旨在通过促进代理间通信、任务专业化和协调决策来模拟复杂的人类工作流程。像CAMEL (G. Li 等人 2023) 和 AutoGen (Q. Wu 等人 2023) 这样的框架展示了具有不同角色的代理如何通过交互比单一的整体代理更有效地解决问题。通过分配专门功能——从创意生成和规划到评估——这些框架实现了分工，增强了整体系统能力和灵活性。进一步的进展见于MetaGPT (Hong 等人 2023) 和 AgentLite (Z. Liu 等人 2024) ，它们通过元编程技术和轻量级库动态分配角色并协调复杂工作流。这些结构化的交互不仅提高了任务效率，还在动态问题解决环境中提供了稳健性。最近的发展还包括像ChatEval (Chan 等人 2023) 和 ChatDev (C. Qian 等人 2023) 这样的系统，它们利用代理间辩论和评价反馈产生更细致和可靠的输出。这种类似于人类的代理间讨论在开放式自然语言生成任务和复杂的软件开发过程中特别有益。
3 为什么现在是代理推荐系统？
近年来，推荐系统的进步主要集中在增强交互能力上，大多数研究努力仍处于高级推荐系统（Level 1）和智能推荐系统（Level 2）阶段，如表 [tab:evolution] 所示。然而，它们本质上仍然是反应式的，依赖于预定义的模型架构和用户驱动的反馈循环。下一个前沿，代理推荐系统（Level 3），旨在超越反应式参与，实现自主、适应和主动的推荐策略，由于最近在（M）LLMs方面的突破，这变得越来越可行。我们确定了三个关键因素：

利用（M）LLMs进行推荐： 集成LLMs引入了类似代理的能力，如规划、记忆保留和上下文学习，使得自适应和进化的推荐策略成为可能。与需要明确重新训练的传统系统不同，基于LLM的代理可以根据顺序用户交互和外部情境提示动态细化推荐。此外，协作多代理系统可以通过使多个AI代理交换信息、集体推理和优化决策来进一步增强推荐。
扩展信息模态： RS主要依赖于基于ID和文本信息，限制了它们充分理解用户偏好的能力。相反，多模态代理系统可以处理多样化的输入信号，包括图像、音频、结构化元数据和行为线索，从而实现更丰富和更情境感知的推荐。因此，代理系统可以捕捉到用户的整体意图，弥合隐性和显性偏好信号之间的差距。
演变的用户界面：从被动到主动推荐： 传统的推荐范式主要作为被动系统，根据用户查询提供静态建议。会话推荐器改善了参与度，但仍依赖于用户发起的交互。代理系统引入了主动用户体验，其中基于多模态的AI代理持续适应、预测用户需求，并在明确查询发生前自主改进推荐。这种转变不仅提升了用户满意度，还开启了高度个性化、实时且情境感知的推荐系统之门。

鉴于这些进步，向多模态LLM驱动的代理推荐者演进代表了一条有希望且不可避免的轨迹。这些系统结合了自主性、适应性和多模态智能，为超越现有模型能力的自我改进、记忆驱动和高度个性化的推荐体验铺平了道路。

4 公式化

4.1 用户画像模块：

用户画像模块采用机器学习技术，随时间自适应地精炼用户画像。它综合来自不同来源和外部情境信号的信息，创建用户偏好的多维度视图。例如，RecAgent (L. Wang 等人 2023) 利用基于大语言模型的代理来模拟用户行为并提高画像准确性。此外，Rec4Agentverse (Jizhi Zhang 等人 2024) 利用基于大语言模型的代理进行前景个性化推荐，允许更精细的用户表示。

在当代实践中，画像模块还利用MLLMs处理非结构化数据模态，如文本评论和视觉偏好。MACRec (Z. Wang 等人 2024a) 探索多代理协作框架，通过合作代理学习增强用户画像，确保画像随时间稳健发展。同时，AgentCF (Junjie Zhang 等人 2023) 集成自主学习语言代理，共同精炼用户画像，强化适应性个性化。通过维护用户偏好的静态和动态方面，此模块确保推荐在系统中情境适当，显著提高用户满意度。集成强化学习框架如SUBER (Corecco 等人 2024a) 帮助通过模拟未来交互预测演化偏好，对长期用户行为建模。

4.2 规划模块：

通过模拟潜在的推荐序列和用户响应，该模块可以调整策略以最小化风险，预测建模也强调在RecMind (Y. Wang 等人 2024) 中，将LLMs集成到序列推荐中。此外，它可以结合代理间的协作和竞争动态，允许多代理系统中的协调行动 (Fang 等人 2024) 或单代理设置中的个性化优先级 (Junjie Zhang 等人 2023) 。

规划模块还支持分层规划，确保每个子推荐与总体目标一致，创造连贯且无缝的用户体验。最近的人工智能驱动推荐进展，如AutoConcierge (Yankai Zeng 等人 2023) ，专注于互动目标导向推荐，支持结构化决策。

4.3 内存模块：

内存模块设计用于支持短期和长期内存功能。短期内存存储最近的交互，使系统能够适应用户的即时需求和偏好。相比之下，长期内存归档更广泛的行为模式，这对于理解用户行为随时间的变化至关重要。这些内存层共同创建了用户的整体视图，在平衡短暂兴趣与持久倾向之间起到作用。类似架构在SUBER (Corecco 等人 2024a) 中被探索，这是一个基于RL的框架，模拟人类行为以实现自适应推荐学习。为了有效管理大规模数据，内存模块采用高级数据结构化技术，通过神经注意力模型实现高效检索，实时访问相关历史数据。这种能力类似于BiLLP (Shi 等人 2024) ，它将LLMs定位为可学习的规划者，以增强长期推荐策略。内存模块的一个关键特征是其整合跨会话数据的能力。像AgentCF (Junjie Zhang 等人 2023) 这样的系统结合协作学习机制，增强多代理推荐中的语言代理互动。

4.4 动作模块：

多代理框架已被探索以促进推荐设置中的协作和竞争。MACRec (Z. Wang 等人 2024a) 展示了多代理协作框架在提高推荐多样性和准确性方面的潜力。此外，MACRS (Fang 等人 2024) 扩展了这一概念，引入了多代理对话推荐系统，通过协调多个代理之间的交互来优化实时推荐。对话推荐系统在动作模块中起着关键作用，通过提供情境感知响应。RecLLM (Friedman 等人 2023) 和 CSHI (L. Zhu, Huang, 和 Sang 2024) 专注于利用大语言模型增强对话互动，提供可扩展且可控的用户模拟。RecMind (Y. Wang 等人 2023) 利用大语言模型推动基于代理的推荐，确保响应与不断变化的用户意图一致。LLM4Rerank (Gao 等人 2025) 通过优化的重排序机制进一步提高推荐效果。

一种新颖的方向是工具增强型推荐（如ToolRec (Y. Zhao, Wu, Wang, Tang, Wang, 和 Rijke 2024) ），它利用工具学习来提高推荐的准确性和可用性。同样，RAH (Shu, Zhang, 等人 2023) 提出了一种以人为中心的框架，通过平衡LLM驱动的推荐与人工监督来提高用户满意度。

5 LLM-ARS中的关键研究问题

在公式化代理推荐系统并检查其关键组成部分后，下一步是解决将LLM驱动的代理能力集成到推荐系统中的基本挑战。这些挑战涵盖推理、用户建模、多模态融合、终身个性化、决策框架、可控性等。为了系统分析这些挑战并探索新解决方案，我们围绕以下关键研究问题（RQs）展开讨论。

RQ1: 基于LLM的代理如何通过推理、规划和协作受益于推荐系统？

RQ2: 代理推荐系统如何有效利用（M）LLM来提高用户理解和决策？

RQ3: 需要哪些新型架构或学习范式来实现代理推荐系统？

RQ4: 将代理决策和多模态推理集成到推荐系统中的关键挑战是什么？

RQ5: 如何评估由多模态LLMs驱动的代理推荐系统的有效性和稳健性？

RQ6: 在利用MLLMs时，代理推荐系统如何平衡自主性和可控性？

RQ7: 代理推荐系统如何实现终身个性化同时缓解灾难性遗忘？

6 基于LLM的代理推理、规划和协作 (RQ1)

在本节中，我们探讨了LLM代理在长期规划和个人化上下文及反馈上的推理挑战 ( RQ1 )。与传统推荐方法不同，后者从历史数据中学习以捕捉用户行为的统计模式 (S. Wang 等人 2019; Schafer 等人 2007; Rendle 等人 2011) ，LLM代理分析项目的情境信息和用户-项目交互的语义细节 (Junjie Zhang 等人 2023; J. Wu 等人 2024) 。它们进一步通过链式思维生成来规划主动策略，探索长期偏好 (X. Wang, Cui, Suzuki, 等人 2024; H. Zhao 等人 2024; J. Wu 等人 2024) 。然而，作为通用模型，LLM难以适应个人化上下文或用户反馈。为了模拟多样化个性，LLM代理通过提示进行角色扮演 (Junjie Zhang 等人 2023) 和用户建模 (Zijian Zhang 等人 2024) ，并在交互环境中通过多代理对齐进行自我改进 (J. Wang 等人 2025, 2024; J. Wu 等人 2024) 。

6.1 代理推荐系统中的规划与推理

推荐系统中的LLM代理规划利用大型语言模型的复杂推理和决策能力，将推荐过程分解为子任务，并分配给多个代理进行跨代理协作。为了管理复杂的推荐任务， Z. Wang 等人 (2024a) 和 Fang 等人 (2024) 提出了多代理框架，将总体任务分解为专门的角色，而 Z. Wang 等人 (2024a) 引入了包括经理、用户/项目分析师、反思者、搜索者和任务解释者在内的代理协议。 Fang 等人 (2024) 专注于目标导向的对话规划，并结合用户反馈感知的反思机制来控制对话流程。为减轻幻觉和语义与行为不一致的问题， Y. Zhao, Wu, Wang, Tang, Wang, 和 De Rijke (2024) 使用带有替代用户和属性导向工具（即排名和检索工具）的工具学习，而 (C. Li 等人 2024) 整合外部知识和目标引导以更好地推理基础和主动响应。为进一步在规划中实现探索， J. Wang 等人 (2025) 开发了由LLM驱动的策略探索，通过预训练策略与用户偏好蒸馏部署自适应微调策略。

6.2 LLM代理在用户建模中的角色扮演

探索LLM代理角色扮演技术对于现实世界中的用户建模在推荐系统中具有挑战性，其中用户代理或模拟器模仿人类行为以捕捉显性和隐性用户偏好。直观上，这些方法利用角色扮演来弥合语言理解和行为模拟之间的差距，使多代理交互更加真实以实现个性化偏好对齐和更严格的评估。一个突出的挑战是模拟人类行为中固有的社会动态用户-项目交互。 Junjie Zhang 等人 (2024) 通过模拟一个协作学习环境来解决这个问题，在这个环境中，用户和项目都被建模为自治的角色扮演代理，从而实现双向交互和反射调整。此外， L. Wang, Zhang, Yang, Chen, Tang, Zhang, Chen, Lin, Sun, 等人 (2024) 引入了一个沙盒环境，其中角色扮演代理配备了配置文件、记忆和动作模块，通过一对一和广播通信进行交互，有效地建模社会影响和一致性。相反， Zijian Zhang 等人 (2024) 强调通过整合逻辑推理与统计见解来明确用户建模，以模拟用户参与。

为了解决对话场景中可控性和可扩展性的需求， L. Zhu, Huang, 和 Sang (2024) 提出了一个框架，利用角色扮演定制实时用户模拟，增强了对话推荐系统中用户建模的真实性。此外，为克服数据稀缺和评估可靠性相关的限制， (Corecco 等人 2024b) 和 (Ebrat 和 Rueda 2024) 构建了使用LLMs作为角色扮演用户的合成环境，而 (Kim 等人 2024) 引入了无目标角色扮演策略，以避免偏好提取中的偏差。然而，当前的LLM代理角色扮演方法在用户建模中仍然面临模拟过程的可解释性和捕捉人类决策复杂性的挑战。未来的研究应集中于开发更可解释的角色扮演策略，并整合更丰富、多模态的行为数据，以进一步增强用户建模框架的适应性和真实性。

6.3 代理与用户之间的交互

基于LLM的代理推荐系统激发了探索增强代理与用户之间实际交互的方法。直观上，这些方法利用代理角色扮演和协作机制来弥合语言理解和复杂行为交互之间的差距。主要挑战之一是通过捕捉显式语义和隐式行为信号来模拟真实的用户-代理交互。 Junjie Zhang 等人 (2024) 通过在用户和项目代理之间进行协作学习来解决非语言信号（如项目点击）的建模问题，这与对话中心的方法（如 (Fang 等人 2024) ）形成对比。 Kim 等人 (2024) 进一步强调了避免目标偏见的目标自由用户模拟协议。

另一个挑战在于将特定任务的推荐动态与互动能力相结合。虽然 X. Huang 等人 (2023a) 通过增强推荐模型将LLMs用作中央控制器来实现无缝互动， X. Wang, Cui, Fukumoto, 等人 (2024) 专注于通过整词嵌入技术增强高阶互动意识。在多代理系统中，协作以实现有效互动由 (Z. Wang 等人 2024a) 提出，设计了针对各种子任务的专门代理，而 (Fang 等人 2024) 建议反馈感知反思以控制对话流。然而，现有工作在建模扩展代理-用户互动的动态演变和协作演变方面仍存在不足，未能完全整合适应性反馈机制。未来研究应探索多代理规划和推理策略，以对齐动态用户-项目互动。

6.4 代理的自我改进

最后，我们讨论了代理如何通过持续融入丰富的交互信号在推荐环境中进一步演化和自我改进。通过利用大型语言模型（LLMs）来模拟和提炼这些交互，近期方法旨在弥合静态离线训练和在线部署演化的差距。从稀疏数据中综合有效的反馈可以显著扩大LLM代理的离线训练规模。 J. Wu 等人 (2024) 通过整合协作信息来丰富交互上下文，除了 (J. Wang 等人 2024) 直接通过LLM能力生成反馈的方法。 J. Wang 等人 (2025) 引入了交互增强学习策略（iALP），通过LLMs增强的蒸馏用户交互数据进行预训练策略，以应对离线强化学习中的分布漂移和有限探索问题。 J. Wang 等人 (2024) 则使用LLM作为环境，通过真实交互反馈口头建模状态和奖励。同时，在自适应代理选择领域， (Park 和 Zhang 2025) 利用与人类反馈对齐的句子嵌入来推荐最合适的代理，确保在动态设置下的适应性。面对自我改进的可解释性需求， (H. Zhao 等人 2024) 提出了一种逻辑对齐策略，使LLM推理在线系统中具备可解释的推荐，基于明确的交互语义。然而，当前方法仍受限于合成或模拟交互数据的依赖，这些数据可能无法充分捕捉现实世界环境的复杂性。此外，仿真到真实的差距也可能更具挑战性，这需要强大的离线策略评估和智能在线适应策略。

7 LLM代理增强用户理解和决策制定 (RQ2)

从RS领域的角度来看，基于LLM的自主代理系统将LLMs定位为核心“大脑”，辅以规划、记忆和工具利用等关键组件 (Weng 2023) 。杰出的工作如AutoGPT和BabyAGI展示了基于LLM的代理的巨大潜力，特别是在存储过往经验和利用它们做出更明智决策方面( RQ2 )。在RS场景中，这些代理通常被概念化为用户模拟器或RS本身，如图 [fig:agent] 所示。

7.1 LLM-ARS中的用户模拟

在训练大规模RS时，模拟用户行为是至关重要的，鉴于现实世界交互数据中的数据稀缺、伦理问题和冷启动问题的挑战。传统方法 (Y. Zhu 等人 2017; Ie 等人 2019) 难以建模复杂且不断变化的用户行为，而近期LLMs的进步提供了一个有希望的替代方案，通过启用更灵活和真实的模拟。

大多数工作利用基于LLM的个性化代理来模拟用户交互。RecAgent (L. Wang 等人 2023) 将每个用户视为能够在模拟环境中自由交互的自主代理，捕捉传统的RS行为，如浏览和点击，以及外部影响如社交互动。进一步扩展这个想法，Agent4Rec (A. Zhang 等人 2023) 在电影RS中模拟了1,000个生成代理，用户以逐页方式与推荐互动，采取多样化行动以更好地近似真实世界的决策。除了单个用户代理之外，还出现了协作模拟框架来建模多代理动态。LLM-InS (F. Huang 等人 2024) 预测用户与冷启动项目的交互，通过召回用户子集的点击生成合成交互以更新项目嵌入。Zhang 等人 (Zijian Zhang 等人 2024) 将基于LLM的逻辑推理与统计建模相结合，从项目特性和参与历史中提取用户偏好，以提高模拟行为的真实性。AgentCF (Junjie Zhang 等人 2023) 扩展了这一范例，将用户和项目都视为交互代理，促进用户-项目互动的协同进化学习过程。USimAgent (E. Zhang 等人 2024) 专注于搜索行为模拟，捕捉查询、点击和停止行为以生成真实的搜索任务交互。BASES (Ren 等人 2024) 进一步扩展了这一概念，利用基于LLM的代理创建大规模用户配置文件和跨多种语言基准的多样化搜索行为。

尽管取得了进展，基于LLM的模拟器仍面临关键限制。许多依赖预定义的启发式规则或脚本规则，未能捕捉突发或长期行为模式。虽然LLMs可以近似用户偏好，但它们缺乏建模认知偏差、不断变化的兴趣或情境决策转变的能力。可扩展性也是一个问题：可以大规模生成合成交互，但其在现实世界中的有效性仍然不确定，过度依赖模拟数据可能会引入偏差。未来的工作应集中在适应性、反馈驱动的框架上，将现实世界的行为信号整合进来，细化用户建模超越静态偏好，并为RS应用中LLM生成的交互建立验证机制。

7.2 利用LLM驱动的决策提升个性化推荐

利用LLM代理的高级推理、反思和工具使用能力，近期方法探索了它们作为决策代理的角色，以增强个性化推荐。与第0-2级RS模型不同，LLM-ARS动态适应用户需求，通过整合规划、自我反思和外部工具交互。RAH框架 (Shu, Gu, 等人 2023) ，结合基于LLM的代理和Learn-Act-Critic循环，改善与用户个性的一致性并减轻偏差。然后，Wang 等人 (Y. Wang 等人 2023) 首次引入了一种自我激励规划算法，跟踪代理的所有过去步骤以帮助生成新的状态。在每一步中，代理回顾所有之前走过的路径，以确定下一步做什么。这种方法有助于使用数据库、搜索引擎和摘要工具，结合用户数据，生成量身定制的推荐。InteRecAgent (X. Huang 等人 2023b) 将LLMs视为核心，而推荐模型则作为提供领域特定知识的工具，LLMs可以解析用户意图并生成响应。他们指定了RS任务所需的核心工具集——信息查询、项目检索和项目排名，并引入候选内存总线，允许先前的工具访问和修改项目候选池。

然而，关键挑战依然存在，如确保推荐的长期一致性，平衡LLM-ARS泛化与领域特定准确性，以及减轻LLM生成推理中潜在的偏差。未来研究应重点整合用户反馈循环，增强可解释性，并优化工具增强LLM决策的效率，以充分实现LLM-ARS的潜力。

8 框架和学习范式 (RQ3)

为了实现LLM-ARS，需要新颖的框架和学习范式来增强自主性、适应性和人类对齐 ( RQ3 )。我们将这些进展分为三个关键领域：单代理架构，专注于个体代理作为决策者；多代理协作，利用多个代理之间的交互以提高推理和适应性；以及人类-LLM混合架构，强调人类用户与基于LLM的代理之间的协作，以细化个性化、控制和推荐中的可解释性。

RS的单代理框架： 基于LLM的单代理框架通过整合推理、记忆和规划在RS中实现自主决策。RAH框架 (Shu, Gu, 等人 2023) 采用Learn-Act-Critic循环迭代细化推荐，改善个性化并减少偏差。Wang 等人 (Y. Wang 等人 2023) 引入了自我激励规划，其中LLM代理通过回顾过去的决策来优化未来的选项，同时利用诸如搜索引擎和摘要模型等外部工具。InteRecAgent (X. Huang 等人 2023b) 进一步增强了这一范式，将LLMs作为决策核心，选择性调用领域特定工具（如检索和排名模块）并维持长期候选记忆以实现自适应排名。这些架构将LLMs从被动生成器转变为自适应决策者，实现更情境感知、互动性强的推荐。然而，它们面临可扩展性挑战，并在多域场景中缺乏协作推理。

RS的多代理框架： 多代理框架通过纳入专门代理来增强单代理框架，这些代理通过通信和协作来改进决策。与依赖单一代理完成所有任务不同，这些框架为不同代理分配不同的角色，实现并行推理、任务专业化和自组织交互。Wang 等人 (Z. Wang 等人 2024b) 提出了MACRec，其中经理、分析师和反思者等代理在评分预测、序列推荐和解释生成等任务中协作，提高适应性和可解释性。PUMA (Cai 等人 2024) 进一步整合了共享记忆系统，允许代理检索过去的交互以增强个性化。与单代理模型相比，多代理框架提供了更好的可扩展性、模块化和推理效率，但在交互代理间协调、冗余减少和一致性维护方面面临挑战。

RS的人类-LLM混合框架： 虽然基于LLM的代理增强了自动化，但人类在环架构对于提高RS中的可解释性和公平性至关重要。近期工作探索了协作框架，其中用户反馈引导LLM驱动的推理，确保透明度和控制。Shu 等人 (Shu 等人 2024) 提出基于LLM的助手调解用户和RS之间的关系。通过内置反思的Learn-Act-Critic循环，助手通过解决偏好不一致来改进推荐。它还纳入隐私保护机制，允许用户过滤内容并动态调整推荐。除了直接交互外，混合框架将用户意图嵌入到基于LLM的推理中。Ning 等人 (Ning 等人 2024) 通过预训练编码器和交叉注意力将用户嵌入与LLMs结合，更有效地捕捉长期偏好。Shao 等人 (Shao 等人 2024) 进一步通过向量量化和偏好对齐来弥合LLM推理与结构化用户数据之间的语义差距。为了正式化以人为中心的代理RS的设计原则，Deng 等人 (Y. Deng 等人 2024) 引入了涵盖智能、适应性和文明的分类法，为开发道德适应、用户对齐的对话推荐器提供了指南。

总之，单代理系统实现了自主推理和记忆整合，而多代理架构增强了协作和模块化。人类-LLM混合进一步提高了可解释性和个性化。关键挑战包括在自主性与用户控制之间取得平衡、优化协调并减轻偏差同时确保泛化。未来研究应发展自适应架构，统一推理、协作和用户对齐，以实现完全互动、情境感知的系统。

9 开放问题与机遇

9.1 多模态推理在LLM-ARS中的应用 (RQ4)

在本节中，我们调查了将代理决策和多模态推理整合到推荐系统中的关键挑战 ( RQ4 )。

多模态融合： 多模态融合对于整合多个LLMs和工具的代理推荐系统至关重要，但仍具挑战性。潜在策略包括编码器-解码器、注意力、图神经网络（GNN）和生成神经网络（GenNN）融合。编码器-解码器模型在共享空间中统合多模态特征以进行任务特定解码 (Tan 等人 2022; Khattar 等人 2019) ，而注意力融合增强跨模态依赖关系 (Y. Wu 等人 2021; Lu 等人 2022) 。基于GNN的方法联合建模结构化和非结构化数据 (S. Qian 等人 2021; Tao 等人 2020) ，而基于GenNN的融合在处理缺失数据的同时合成模态 (Sahu 和 Vechtomova 2019) 。有效的融合加强推理和事实依据，确保LLM-ARS中稳健的决策制定。

多模态推理： 将(M)LLM常识推理与推荐任务对齐仍然是关键挑战。虽然(M)LLMs擅长开放域推理，但它们往往缺乏用户偏好建模和顺序决策所需的特定任务适应性。它们的推理优化是为了普遍理解而非多模态用户意图推断，导致推荐相关性的不一致。解决此问题需要使用领域特定约束进行微调、整合结构化知识，并优化个性化决策的多模态推理。

效率： 对于LLM-ARS来说，效率仍然是一个关键挑战，尤其是在协调多个专业工具或模型时。当前的RS在将LLMs与外部API集成以实现多模态任务时通常会产生显著的计算开销，导致延迟问题。在保持准确性的同时优化代理管道的速度和资源利用率是至关重要的。有希望的方向包括开发轻量级代理、通过共享中间输出减少冗余计算，以及探索LLM内的模型压缩技术。

9.2 LLM-ARS的基准测试 ( RQ5 )。对LLM-ARS进行基准测试提出了超越已建立的LLM和独立RS指标的独特挑战。像AgentBench这样的全面框架 (X. Liu 等人 2024) 对于评估多轮交互质量、跨模态有效性以及对用户反馈的适应性至关重要。有效的评估需要捕捉现实世界复杂性的标准化数据集和协议，包括动态个性化和多模态工作流。稳健的评估应将定性见解与定量指标相结合，在不断变化的条件下测量连贯性、响应性和情境相关性。通过压力测试对突发反馈的适应性来确保持续性能。开发与实际用例一致的现实模拟环境将增强ARS基准测试的透明度，并推动迭代改进。

9.3 在LLM-ARS中平衡自主性和可控性 (RQ6)

确保在LLM-ARS中平衡自主性和可控性需要应对关键挑战，如幻觉、可解释性和安全性 ( RQ6 )。虽然代理推荐系统从LLMs生成灵活和适应性强的推荐中受益，但不受控制的生成可能导致不切实际、无关甚至有害的推荐。下面，我们讨论这些挑战如何在推荐场景中表现以及缓解它们的策略。

幻觉： LLM-ARS中的幻觉通常发生在生成的项目超出有效项目池（OOV项目）范围或模型虚构与真实行为不符的用户偏好时。这一问题源于LLMs开放式的生成性质。这个问题出现是因为，与基于检索的RS不同，LLMs不会自动将输出限制在现有目录内。例如，一个LLM可能会推荐一个词汇表外（OOV）项目，该项目不存在于系统的数据库中，或者在多模态RS中生成不切实际的项目-属性组合，或者根据语义关联而非实际互动推断用户兴趣。这种错误在电子商务等领域尤其成问题，因为在这些领域推荐不可用产品会降低用户信任。为减轻幻觉，已经提出了一些策略。数据库支持的生成技术确保LLMs在最终确定推荐前参考外部项目池 (M. Zhao 等人 2024) 。反思指令微调有助于细化生成约束 (Jinrui Zhang 等人 2024) ，而幻觉检测框架标记缺乏事实依据的输出 (Yu 等人 2024) 。在推理过程中，方法如自适应接地 (Z. Chen 等人 2024) 和自我反省解码 (Huo 等人 2024) 实时验证推荐输出，确保生成的建议与可用内容一致。通过应用这些技术，LLM-ARS可以在保持生成灵活性的同时防止误导性推荐。

可解释性和信任： 确保可解释性和用户信任是LLM-ARS的关键挑战，因为LLM驱动的模型通常作为不透明的决策者运作。与具有结构化优化标准的传统RS不同，LLM-ARS推荐器依赖于隐式推理，使得追踪其决策变得困难。这种不透明性可能导致怀疑，特别是当推荐显得随意或不一致时。例如，一个对话RS中的LLM可能会根据推断的情感语气而不是明确偏好建议一本书，而一个多模态RS可能会基于文本评论推荐一部电影，而不通过类型或演员等内容特征加以解释。为了提高透明度，近期方法探索了自然语言推理生成 (H. Chen 等人 2021) 、通过外部知识图谱的结构化决策路径 (Xian 等人 2019; Lyu 等人 2022) 以及嵌入用户互动到LLM推理中的交叉注意力机制 (L. Li, Zhang 和 Chen 2023a) 。链式思维提示进一步通过逐步分解推荐来增强可解释性 (L. Li, Zhang 和 Chen 2023b) 。将模型推理与显式知识来源对齐可以加强用户信任和对推荐的控制。

安全性和脆弱性： 随着LLM-ARS变得更加自主，确保安全性和稳健性尤为重要，特别是在防止对抗性操纵和意外偏差方面。恶意用户可以通过提示注入、数据投毒和对抗性攻击利用漏洞，导致有偏见或有害的推荐 (Zhan 等人 2024; Yifan Zeng 等人 2024) 。此外，基于LLM的RS存在强化历史偏差的风险，过度优化参与度以牺牲多样性和公平性。过度个性化进一步加剧了过滤泡沫，限制了内容发现。解决这些风险需要多层次的安全措施。对抗性训练增强了韧性 (Xiang 等人 2024) ，而公平性感知算法施加约束以减轻偏差 (Hua 等人 2024) 。用户反馈循环允许手动覆盖，保留用户代理权。治理框架为自主推荐者确立伦理边界 (Z. Deng 等人 2024) 。这些机制共同加强了LLM-ARS的安全性和可靠性，确保自主性与伦理责任相一致。

9.4 LLM-ARS中的终身个性化 (RQ7)

当前代理推荐系统中的个性化仅限于短期记忆或静态用户画像 (T. Wang 等人 2024) 。终身个性化引入了持续学习的概念，其中代理随着时间的推移与用户的偏好一起进化 ( RQ7 )。这些代理不应被动生成推荐，而应主动与用户互动，澄清模糊之处，并通过长期反馈回路改进其理解。挑战包括处理灾难性遗忘、使学习与变化的用户偏好保持一致以及随着用户交互历史的增长保持可扩展性。元学习、情节记忆系统和AI角色——用户偏好的持久表示 (Wen 等人 2024) 的方法可以提供有希望的解决方案。这些方法确保代理能够适应用户在各种情境和应用中的演变需求。

10 结论

本视角论文首先考察了将LLMs集成到代理RS中，强调其在实现动态、适应性和多模态交互中的作用。我们将近期进展分类为单代理、多代理和人类-LLM混合架构，分析它们对个性化、透明度和推理的影响。尽管取得了这些进展，效率、幻觉、安全性和终身学习等挑战仍然至关重要。为了解决这些问题，我们概述了未来方向，包括可扩展架构、稳健的评估框架和改进的领域泛化。随着代理RS的发展，确保自主性与可控性之间的平衡对于构建值得信赖、情境感知和符合伦理的推荐系统至关重要。

Cai, Hongru, Yongqi Li, Wenjie Wang, Fengbin Zhu, Xiaoyu Shen, Wenjie Li, 和 Tat-Seng Chua. 2024. “大型语言模型赋能的个性化网络代理。” CoRR abs/2410.17236.

Chan, Chi-Min, Weize Chen, Yusheng Su, Jianxuan Yu, Wei Xue, Shanghang Zhang, Jie Fu, 和 Zhiyuan Liu. 2023. “Chateval：通过多代理辩论实现更好的基于LLM的评估者。” arXiv 预印本 arXiv:2308.07201 .

Chen, Hanxiong, Xu Chen, Shaoyun Shi, 和 Yongfeng Zhang. 2021. “为推荐生成自然语言解释。” arXiv 预印本 arXiv:2101.03392 .

Chen, Zhaorun, Zhuokai Zhao, Hongyin Luo, Huaxiu Yao, Bo Li, 和 Jiawei Zhou. 2024. “Halc：通过自适应焦点对比解码减少对象幻觉。” arXiv 预印本 arXiv:2403.00425 .

Corecco, Nathan, Giorgio Piatti, Luca A. Lanzendörfer, Flint Xiaofeng Fan, 和 Roger Wattenhofer. 2024a. “SUBER：带有模拟人类行为的RL环境用于推荐系统。” https://arxiv.org/abs/2406.01631 .

Corecco, Nathan, Giorgio Piatti, Luca A Lanzendörfer, Flint Xiaofeng Fan, 和 Roger Wattenhofer. 2024b. “基于LLM的推荐系统环境。” arXiv 预印本 arXiv:2406.01631 .

Deng, Yang, Lizi Liao, Zhonghua Zheng, Grace Hui Yang, 和 Tat-Seng Chua. 2024. “迈向以人为中心的主动性对话代理。” 在 第47届国际ACM SIGIR信息检索研究与发展会议论文集， SIGIR 2024, 华盛顿特区，美国，2024年7月14-18日 ，807–18. ACM.

Deng, Zehang, Yongjian Guo, Changzhou Han, Wanlun Ma, Junwu Xiong, Sheng Wen, 和 Yang Xiang. 2024. “受威胁的人工智能代理：关键安全挑战及未来路径的综述。” ACM Computing Surveys .

Durante, Zane, Qiuyuan Huang, Naoki Wake, Ran Gong, Jae Sung Park, Bidipta Sarkar, Rohan Taori, 等人. 2024. “代理AI：探索多模态交互的前沿。” arXiv 预印本 arXiv:2401.03568 .

Ebrat, Danial, 和 Luis Rueda. 2024. “Lusifer：基于LLM的用户模拟反馈环境用于在线推荐系统。” arXiv 预印本 arXiv:2405.13362 .

Fang, Jiabao, Shen Gao, Pengjie Ren, Xiuying Chen, Suzan Verberne, 和 Zhaochun Ren. 2024. “一种多代理对话推荐系统。” arXiv 预印本 arXiv:2402.01135 .

Friedman, Luke, Sameer Ahuja, David Allen, Zhenning Tan, Hakim Sidahmed, Changbo Long, Jun Xie, 等人. 2023. “在对话推荐系统中利用大型语言模型。” https://arxiv.org/abs/2305.07961 .

Gao, Jingtong, Bo Chen, Weiwen Liu, Xiangyang Li, Yichao Wang, Wanyu Wang, Huifeng Guo, Ruiming Tang, 和 Xiangyu Zhao. 2025. “LLM4Rerank：基于LLM的自动重排序框架用于推荐。” https://arxiv.org/abs/2406.12433 .

Guo, Taicheng, Chaochun Liu, Hai Wang, Varun Mannam, Fang Wang, Xin Chen, Xiangliang Zhang, 和 Chandan K Reddy. 2024. “知识图谱增强的语言代理用于推荐。” arXiv 预印本 arXiv:2410.19627 .

Hong, Sirui, Xiawu Zheng, Jonathan Chen, Yuheng Cheng, Jinlin Wang, Ceyao Zhang, Zili Wang, 等人. 2023. “MetaGPT：多代理协作框架的元编程。” arXiv 预印本 arXiv:2308.00352 .

Hua, Wenyue, Xianjun Yang, Mingyu Jin, Zelong Li, Wei Cheng, Ruixiang Tang, 和 Yongfeng Zhang. 2024. “TrustAgent：通过代理宪法实现安全可信的LLM基础代理。” 在 可信多模态基础模型和人工智能代理 (TiFA) 。

Huang, Chengkai, Tong Yu, Kaige Xie, Shuai Zhang, Lina Yao, 和 Julian McAuley. 2024. “推荐系统的基础模型：一项调查与新视角。” arXiv 预印本 arXiv:2402.11143 .

Huang, Feiran, Zhenghang Yang, Junyi Jiang, Yuanchen Bei, Yijie Zhang, 和 Hao Chen. 2024. “用于冷启动项目推荐的大规模语言模型交互模拟器。” CoRR abs/2402.09176.

Huang, Xu, Jianxun Lian, Yuxuan Lei, Jing Yao, Defu Lian, 和 Xing Xie. 2023b. “推荐AI代理：整合大规模语言模型用于互动推荐。” CoRR abs/2308.16505. https://arxiv.org/abs/2308.16505 .

———. 2023a. “推荐AI代理：整合大规模语言模型用于互动推荐。” arXiv 预印本 arXiv:2308.16505 .

Huang, Xu, Weiwen Liu, Xiaolong Chen, Xingmei Wang, Hao Wang, Defu Lian, Yasheng Wang, Ruiming Tang, 和 Enhong Chen. 2024. “理解LLM代理的规划：一项调查。” arXiv 预印本 arXiv:2402.02716 .

Huo, Fushuo, Wenchao Xu, Zhong Zhang, Haozhao Wang, Zhicheng Chen, 和 Peilin Zhao. 2024. “自我反省解码：减轻大规模视觉-语言模型的幻觉。” arXiv 预印本 arXiv:2408.02032 .

Ie, Eugene, Chih-Wei Hsu, Martin Mladenov, Vihan Jain, Sanmit Narvekar, Jing Wang, Rui Wu, 和 Craig Boutilier. 2019. “RecSim：推荐系统的可配置仿真平台。” CoRR abs/1909.04847. https://arxiv.org/abs/1909.04847 .

Jaech, Aaron, Adam Kalai, Adam Lerer, Adam Richardson, Ahmed El-Kishky, Aiden Low, Alec Helyar, 等人. 2024. “OpenAI O1系统卡。” arXiv 预印本 arXiv:2412.16720 .

Khattar, Dhruv, Jaipal Singh Goud, Manish Gupta, 和 Vasudeva Varma. 2019. “MVAE：用于假新闻检测的多模态变分自编码器。” 在 世界万维网大会 ，2915–21.

Kim, Sunghwan, Tongyoung Kim, Kwangwook Seo, Jinyoung Yeo, 和 Dongha Lee. 2024. “别再玩猜谜游戏！无目标用户模拟以评估对话推荐系统。” arXiv 预印本 arXiv:2411.16160 .

Li, Chuang, Yang Deng, Hengchang Hu, Min-Yen Kan, 和 Haizhou Li. 2024. “结合外部知识和目标引导用于基于LLM的对话推荐系统。” arXiv 预印本 arXiv:2405.01868 .

Li, Guohao, Hasan Hammoud, Hani Itani, Dmitrii Khizbullin, 和 Bernard Ghanem. 2023. “CAMEL：通过'心智'探索大规模语言模型社会的沟通代理。” Advances in Neural Information Processing Systems 36: 51991–2008.

Li, Lei, Yongfeng Zhang, 和 Li Chen. 2023a. “个性化提示学习以实现可解释推荐。” ACM Transactions on Information Systems 41 (4): 1–26.

———. 2023b. “提示蒸馏以实现高效的基于LLM的推荐。” 在 第32届ACM国际信息与知识管理会议论文集 ，1348–57.

Lin, Jianghao, Xinyi Dai, Yunjia Xi, Weiwen Liu, Bo Chen, Xiangyang Li, Chenxu Zhu, 等人. 2023. “推荐系统如何从大规模语言模型中获益：一项调查。” CoRR abs/2306.05817. https://arxiv.org/abs/2306.05817 .

Liu, Peng, Lemei Zhang, 和 Jon Atle Gulla. 2023. “预训练、提示与推荐：推荐系统中语言建模范式适应的全面调查。” CoRR abs/2302.03735. https://arxiv.org/abs/2302.03735 .

Liu, Xiao, Hao Yu, Hanchen Zhang, Yifan Xu, Xuanyu Lei, Hanyu Lai, Yu Gu, 等人. 2024. “AgentBench：评估作为代理的LLM。” 在 第十二届国际学习表示会议， ICLR 2024, 维也纳，奥地利，2024年5月7-11日 . OpenReview.net.

Liu, Zhiwei, Weiran Yao, Jianguo Zhang, Liangwei Yang, Zuxin Liu, Juntao Tan, Prafulla K Choubey, 等人. 2024. “AgentLite：构建任务导向型LLM代理系统的轻量级库。” arXiv 预印本 arXiv:2402.15538 .

Lu, Houhong, Yangyang Zhu, Ming Yin, Guofu Yin, 和 Luofeng Xie. 2022. “带交叉注意力机制的多模态融合卷积神经网络用于磁瓦内部缺陷检测。” IEEE Access 10: 60876–86.

Lyu, Ziyu, Yue Wu, Junjie Lai, Min Yang, Chengming Li, 和 Wei Zhou. 2022. “知识增强图神经网络用于可解释推荐。” IEEE Transactions on Knowledge and Data Engineering 35 (5): 4954–68.

Nakano, Reiichiro, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, 等人. 2021. “WebGPT：通过人类反馈辅助的浏览器问答。” arXiv 预印本 arXiv:2112.09332 .

Ning, Lin, Luyang Liu, Jiaxing Wu, Neo Wu, Devora Berlowitz, Sushant Prakash, Bradley Green, Shawn O’Banion, 和 Jun Xie. 2024. “User-LLM：使用用户嵌入实现高效LLM上下文化。” CoRR abs/2402.13598.

OpenAI. 2023. “GPT-4 技术报告。” OpenAI .

Park, Joshua, 和 Yongfeng Zhang. 2025. “AgentRec：基于句子嵌入与人类反馈对齐的代理推荐。” arXiv 预印本 arXiv:2501.13333 .

Qian, Chen, Xin Cong, Cheng Yang, Weize Chen, Yusheng Su, Juyuan Xu, Zhiyuan Liu, 和 Maosong Sun. 2023. “用于软件开发的沟通代理。” arXiv 预印本 arXiv:2307.07924 .

Qian, Shengsheng, Jun Hu, Quan Fang, 和 Changsheng Xu. 2021. “知识感知多模态自适应图卷积网络用于假新闻检测。” ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM) 17 (3): 1–23.

Qin, Peixin, Chen Huang, Yang Deng, Wenqiang Lei, 和 Tat-Seng Chua. 2024. “超越说服：迈向具有可信解释的对话推荐系统。” arXiv 预印本 arXiv:2409.14399 .

Rajput, Shashank, Nikhil Mehta, Anima Singh, Raghunandan Hulikal Keshavan, Trung Vu, Lukasz Heldt, Lichan Hong, 等人. 2023. “推荐系统中的生成检索。” 在 Neural Information Processing Systems 36：年度神经信息处理系统会议2023，NeurIPS 2023, 新奥尔良，LA，美国，2023年12月10 - 16日 .

Ren, Ruiyang, Peng Qiu, Yingqi Qu, Jing Liu, Wayne Xin Zhao, Hua Wu, Ji-Rong Wen, 和 Haifeng Wang. 2024. “BASES：基于大规模语言模型的代理用于大规模网络搜索用户模拟。” CoRR abs/2402.17505.

Rendle, Steffen, Zeno Gantner, Christoph Freudenthaler, 和 Lars Schmidt-Thieme. 2011. “通过因子分解机实现快速情境感知推荐。” 在 第34届国际ACM SIGIR信息检索研究与发展会议论文集 , 635–44.

Ricci, Francesco, Lior Rokach, 和 Bracha Shapira. 2015. “推荐系统：介绍与挑战。” 在 推荐系统手册 , 1–34. Springer.

Sahu, Gaurav, 和 Olga Vechtomova. 2019. “多模态数据的自适应融合技术。” arXiv 预印本 arXiv:1911.03821 .

Schafer, J Ben, Dan Frankowski, Jon Herlocker, 和 Shilad Sen. 2007. “协同过滤推荐系统。” 在 个性化网络方法与策略 , 291–324. Springer.

Shao, Minglai, Hua Huang, Qiyao Peng, 和 Hongtao Liu. 2024. “ULMRec：面向序列推荐的用户中心大语言模型。” arXiv 预印本 arXiv:2412.05543 .

Shi, Wentao, Xiangnan He, Yang Zhang, Chongming Gao, Xinyue Li, Jizhi Zhang, Qifan Wang, 和 Fuli Feng. 2024. “大规模语言模型是可学习的长期推荐计划者。” 在 第47届国际ACM SIGIR信息检索研究与发展会议论文集 , 1893–903. SIGIR 2024. ACM. https://doi.org/10.1145/3626772.3657683 .

Shinn, Noah, Federico Cassano, Beck Labash, Ashwin Gopinath, Karthik Narasimhan, 和 Shunyu Yao. 2023. “Reflexion：基于语言的强化学习代理(2023).” arXiv 预印本 Cs.AI/2303.11366 .

Shu, Yubo, Hansu Gu, Peng Zhang, Haonan Zhang, Tun Lu, Dongsheng Li, 和 Ning Gu. 2023. “RAH！RecSys-Assistant-Human：基于大规模语言模型的人类中心推荐框架。” CoRR abs/2308.09904.

Shu, Yubo, Haonan Zhang, Hansu Gu, Peng Zhang, Tun Lu, Dongsheng Li, 和 Ning Gu. 2023. “RAH！RecSys-Assistant-Human：具有LLM代理的人类中心推荐框架。” https://arxiv.org/abs/2308.09904 .

———. 2024. “RAH！RecSys-Assistant-Human：具有LLM代理的人类中心推荐框架。” IEEE Trans. Comput. Soc. Syst. 11 (5): 6759–70.

Tan, YunPeng, Fangyu Liu, BoWei Li, Zheng Zhang, 和 Bo Zhang. 2022. “一种高效多视图多模态数据处理框架用于社交媒体流行度预测。” 在 第30届ACM国际多媒体会议论文集 , 7200–7204.

Tao, Zhulin, Yinwei Wei, Xiang Wang, Xiangnan He, Xianglin Huang, 和 Tat-Seng Chua. 2020. “MGAT：用于推荐的多模态图注意力网络。” 信息处理与管理 57 (5): 102277.

Wang, Jie, Alexandros Karatzoglou, Ioannis Arapakis, 和 Joemon M Jose. 2024. “基于强化学习的推荐系统，使用大规模语言模型进行状态奖励和动作建模。” 在 第47届国际ACM SIGIR信息检索研究与发展会议论文集 , 375–85.

———. 2025. “基于大规模语言模型的策略探索用于推荐系统。” arXiv 预印本 arXiv:2501.13816 .

Wang, Lei, Jingsen Zhang, Xu Chen, Yankai Lin, Ruihua Song, Wayne Xin Zhao, 和 Ji-Rong Wen. 2023. “RecAgent：推荐系统的一种新模拟范式。” https://arxiv.org/abs/2306.02552 .

Wang, Lei, Jingsen Zhang, Hao Yang, Zhi-Yuan Chen, Jiakai Tang, Zeyu Zhang, Xu Chen, Yankai Lin, Hao Sun, 等人. 2024. “基于大规模语言模型代理的用户行为模拟用于推荐系统。” ACM Transactions on Information Systems .

Wang, Lei, Jingsen Zhang, Hao Yang, Zhiyuan Chen, Jiakai Tang, Zeyu Zhang, Xu Chen, Yankai Lin, Ruihua Song, 等人. 2024. “基于大规模语言模型代理的用户行为模拟。” https://arxiv.org/abs/2306.02552 .

Wang, Shoujin, Liang Hu, Yan Wang, Longbing Cao, Quan Z Sheng, 和 Mehmet Orgun. 2019. “序列推荐系统：挑战、进展与前景。” arXiv 预印本 arXiv:2001.04830 .

Wang, Tiannan, Meiling Tao, Ruoyu Fang, Huilin Wang, Shuai Wang, Yuchen Eleanor Jiang, 和 Wangchunshu Zhou. 2024. “AI PERSONA：迈向大规模语言模型的终身个性化。” CoRR abs/2412.13103.

Wang, Xinfeng, Jin Cui, Fumiyo Fukumoto, 和 Yoshimi Suzuki. 2024. “增强基于LLM的推荐模型中的高阶交互感知。” arXiv 预印本 arXiv:2409.19979 .

Wang, Xinfeng, Jin Cui, Yoshimi Suzuki, 和 Fumiyo Fukumoto. 2024. “RDRec：基于LLM的推荐理由蒸馏。” arXiv 预印本 arXiv:2405.10587 .

Wang, Yancheng, Ziyan Jiang, Zheng Chen, Fan Yang, Yingxue Zhou, Eunah Cho, Xing Fan, Xiaojiang Huang, Yanbin Lu, 和 Yingzhen Yang. 2023. “RecMind：基于大规模语言模型的推荐代理。” arXiv 预印本 arXiv:2308.14296 .

———. 2024. “RecMind：基于大规模语言模型的推荐代理。” https://arxiv.org/abs/2308.14296 .

Wang, Zhefan, Yuanqing Yu, Wendi Zheng, Weizhi Ma, 和 Min Zhang. 2024a. “MACRec：一种多代理协作框架用于推荐。” 在 第47届国际ACM SIGIR信息检索研究与发展会议论文集 , 2760–64.

———. 2024b. “推荐系统的多代理协作框架。” CoRR abs/2402.15235.

Wen, Qingsong, Jing Liang, Carles Sierra, Rose Luckin, Richard Jiarui Tong, Zitao Liu, Peng Cui, 和 Jiliang Tang. 2024. “AI for Education (AI4EDU)：通过LLM和自适应学习推进个性化教育。” 在 第30届ACM SIGKDD知识发现与数据挖掘会议论文集, KDD 2024, 巴塞罗那，西班牙，2024年8月25-29日 ，由Ricardo Baeza-Yates 和 Francesco Bonchi编辑, 6743–44. ACM.

Weng, Lilian. 2023. “LLM驱动的自主代理。” http://Lilianweng.github.io , 六月. https://lilianweng.github.io/posts/2023-06-23-agent/ .

Wu, Junda, Cheng-Chun Chang, Tong Yu, Zhankui He, Jianing Wang, Yupeng Hou, 和 Julian McAuley. 2024. “Coral：协同检索增强的大规模语言模型改进长尾推荐。” 在 第30届ACM SIGKDD知识发现与数据挖掘会议论文集 , 3391–401.

Wu, Qingyun, Gagan Bansal, Jieyu Zhang, Yiran Wu, Shaokun Zhang, Erkang Zhu, Beibin Li, Li Jiang, Xiaoyun Zhang, 和 Chi Wang. 2023. “Autogen：通过多代理对话框架实现下一代LLM应用。” arXiv 预印本 arXiv:2308.08155 .

Wu, Shirley, Shiyu Zhao, Qian Huang, Kexin Huang, Michihiro Yasunaga, Kaidi Cao, Vassilis N Ioannidis, Karthik Subbian, Jure Leskovec, 和 James Zou. 2024. “AvaTaR：优化工具辅助知识检索的大规模语言模型代理。” arXiv 预印本 arXiv:2406.11200 .

Wu, Yang, Pengwei Zhan, Yunjian Zhang, Liming Wang, 和 Zhen Xu. 2021. “基于共注意力网络的多模态融合用于假新闻检测。” 在 计算语言学协会发现：ACL-IJCNLP 2021 , 2560–69.

Xi, Yunjia, Weiwen Liu, Jianghao Lin, Bo Chen, Ruiming Tang, Weinan Zhang, 和 Yong Yu. 2024. “MemoCRS：基于大规模语言模型的记忆增强型顺序对话推荐系统。” 在 第33届ACM国际信息与知识管理会议论文集 , 2585–95.

Xian, Yikun, Zuohui Fu, Shan Muthukrishnan, Gerard De Melo, 和 Yongfeng Zhang. 2019. “强化知识图谱推理生成可解释性推荐。” 在 第42届国际ACM SIGIR信息检索研究与发展会议论文集 , 285–94.

Xiang, Zhen, Linzhi Zheng, Yanjie Li, Junyuan Hong, Qinbin Li, Han Xie, Jiawei Zhang, 等人. 2024. “GuardAgent：通过知识驱动推理保护LLM代理。” arXiv 预印本 arXiv:2406.09187 .

Yao, Shunyu, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, 和 Yuan Cao. 2022. “React：结合推理和行动的语言模型协同效应。” arXiv 预印本 arXiv:2210.03629 .

Yao, Weiran, Shelby Heinecke, Juan Carlos Niebles, Zhiwei Liu, Yihao Feng, Le Xue, Rithesh Murthy, 等人. 2023. “Retroformer：具有策略梯度优化的回顾性大规模语言代理。” arXiv 预印本 arXiv:2308.02151 .

Yu, Qifan, Juncheng Li, Longhui Wei, Liang Pang, Wentao Ye, Bosheng Qin, Siliang Tang, Qi Tian, 和 Yueting Zhuang. 2024. “Hallucidoctor：减轻视觉指令数据中的幻觉毒性。” 在 IEEE/CVF计算机视觉与模式识别会议论文集 , 12944–53.

Zeng, Yankai, Abhiramon Rajasekharan, Parth Padalkar, Kinjal Basu, Joaquín Arias, 和 Gopal Gupta. 2023. “自动化的特定领域互动对话代理：理解人类对话。” https://arxiv.org/abs/2303.08941 .

Zeng, Yifan, Yiran Wu, Xiao Zhang, Huazheng Wang, 和 Qingyun Wu. 2024. “Autodefense：多代理LLM防御对抗越狱攻击。” arXiv 预印本 arXiv:2403.04783 .

Zhan, Qiusi, Zhixiang Liang, Zifan Ying, 和 Daniel Kang. 2024. “Injecagent：评估集成大型语言模型代理中的间接提示注入。” arXiv 预印本 arXiv:2403.02691 .

Zhang, An, Leheng Sheng, Yuxin Chen, Hao Li, Yang Deng, Xiang Wang, 和 Tat-Seng Chua. 2023. “关于生成代理在推荐中的应用。” CoRR abs/2310.10108. https://arxiv.org/abs/2310.10108 .

Zhang, Erhan, Xingzhu Wang, Peiyuan Gong, Yankai Lin, 和 Jiaxin Mao. 2024. “USimAgent：用于模拟搜索用户的大型语言模型。” CoRR abs/2403.09142.

Zhang, Jinrui, Teng Wang, Haigang Zhang, Ping Lu, 和 Feng Zheng. 2024. “反思性指令微调：减轻大规模视觉语言模型中的幻觉。” 在 欧洲计算机视觉会议 , 196–213. Springer.

Zhang, Jizhi, Keqin Bao, Wenjie Wang, Yang Zhang, Wentao Shi, Wanhong Xu, Fuli Feng, 和 Tat-Seng Chua. 2024. “基于大规模语言模型代理平台的前景个性化推荐。” https://arxiv.org/abs/2402.18240 .

Zhang, Junjie, Yupeng Hou, Ruobing Xie, Wenqi Sun, Julian J. McAuley, Wayne Xin Zhao, Leyu Lin, 和 Ji-Rong Wen. 2023. “AgentCF：通过自治语言代理进行协作学习以用于推荐系统。” CoRR abs/2310.09233. https://arxiv.org/abs/2310.09233 .

Zhang, Junjie, Yupeng Hou, Ruobing Xie, Wenqi Sun, Julian McAuley, Wayne Xin Zhao, Leyu Lin, 和 Ji-Rong Wen. 2024. “AgentCF：通过自治语言代理进行协作学习以用于推荐系统。” 在 2024年ACM网络大会论文集 , 3679–89.

Zhang, Shuai, Lina Yao, Aixin Sun, 和 Yi Tay. 2019. “深度学习基础推荐系统：调查与新视角。” ACM 计算机调查 52 (1): 5:1–38.

Zhang, Zeyu, Xiaohe Bo, Chen Ma, Rui Li, Xu Chen, Quanyu Dai, Jieming Zhu, Zhenhua Dong, 和 Ji-Rong Wen. 2024. “关于大规模语言模型代理记忆机制的综述。” arXiv 预印本 arXiv:2404.13501 .

Zhang, Zijian, Shuchang Liu, Ziru Liu, Rui Zhong, Qingpeng Cai, Xiangyu Zhao, Chunxu Zhang, Qidong Liu, 和 Peng Jiang. 2024. “基于LLM的用户模拟器用于推荐系统。” arXiv 预印本 arXiv:2412.16984 .

Zhao, Hongke, Songming Zheng, Likang Wu, Bowen Yu, 和 Jing Wang. 2024. “Lane：非调优大语言模型与在线推荐系统的逻辑对齐以生成可解释推理。” arXiv 预印本 arXiv:2407.02833 .

Zhao, Minyi, Jie Wang, Zhaoyang Li, Jiyuan Zhang, Zhenbang Sun, 和 Shuigeng Zhou. 2024. “通过提示增强和标题利用有效提升视觉语言大规模模型。” arXiv 预印本 arXiv:2409.14484 .

Zhao, Yuyue, Jiancan Wu, Xiang Wang, Wei Tang, Dingxian Wang, 和 Maarten De Rijke. 2024. “让我来为您完成：通过工具学习实现LLM赋能推荐。” 在 第47届国际ACM SIGIR信息检索研究与发展会议论文集 , 1796–806.

Zhao, Yuyue, Jiancan Wu, Xiang Wang, Wei Tang, Dingxian Wang, 和 Maarten de Rijke. 2024. “让我来为您完成：通过工具学习实现LLM赋能推荐。” 在 第47届国际ACM SIGIR信息检索研究与发展会议论文集 , 1796–806. SIGIR 2024. ACM. https://doi.org/10.1145/3626772.3657828 .

Zhu, Lixi, Xiaowen Huang, 和 Jitao Sang. 2024. “一种基于LLM的可控、可扩展、涉及人类的用户模拟框架用于对话推荐系统。” arXiv 预印本 arXiv:2405.08035 .

Zhu, Yu, Hao Li, Yikang Liao, Beidou Wang, Ziyu Guan, Haifeng Liu, 和 Deng Cai. 2017. “接下来做什么：通过时间LSTM建模用户行为。” 在 第二十六届国际人工智能联合会议论文集，墨尔本 , 3602–8.

https://github.com/huggingface/smolagents ↩︎
https://www.langchain.com/langgraph ↩︎

原论文：https://arxiv.org/pdf/2503.1673

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

从Anthropic官方文档看Claude的安全机制：隔离、模型与外部内容的三层防御体系

十二个月前，如果有人提议让Claude拥有足以搞垮Anthropic内部服务的权限，我们一定会断然拒绝。而今天，这种访问级别已经成为常态，Anthropic内部的开发者们正因为这种部署而大幅提升了生产力。这是我读完Anthropic官方工程博客《How we contain Claude across products》（2026年5月25日发布）后的第一感受。当AI Agent的能力越强大，它的