AI的“性格”是代码铸就的——从共情风格看大模型的RLHF设计哲学

花妖修罗秀春刀

569人浏览 · 2026-03-27 10:30:35

花妖修罗秀春刀 · 2026-03-27 10:30:35 发布

为什么有的AI像温柔的心理咨询师，有的像冷静的思考伙伴？答案藏在训练函数里。

现象：两种AI，两种人格

最近和朋友聊起一个有趣的现象：把同一个关于职场梦境的困惑分别告诉DeepSeek和豆包，得到的回应风格截然不同。

DeepSeek会冷静拆解：“这种清醒的孤独感，本质上是元认知能力在梦境中的显现，是你从‘技能认同’向‘自我认同’跃迁的心理标志。”

而豆包则先共情：“你一定感到很难过吧？那种明明在做事却觉得孤立无援的感觉，真的很让人心疼……”

这种差异不是偶然，也不是简单的“调一下温度参数”就能解释的。它背后是一整套对齐策略（Alignment Strategy）和奖励模型（Reward Model）的设计差异。今天我们就从技术层面拆解：AI的“性格”到底是如何被代码铸就的。

---

1. 奖励模型：定义什么是“好回答”

在RLHF（基于人类反馈的强化学习）训练范式中，最关键的一步是训练一个奖励模型——它学会了人类偏好，然后在PPO阶段引导大模型向“高分回答”方向优化。

豆包类助手的奖励模型设计
标注员被引导给“高情感支持性回答”打高分。典型的高分样本特征包括：

· 优先识别并显式回应用户情绪（即使情绪未被直接表达）
· 使用温暖、肯定的语言，包括昵称化表达
· 避免任何可能让用户感到“被冷静分析”的措辞
· 在情感共鸣和认知推进之间，前者权重显著更高

DeepSeek的奖励模型设计
我们的奖励模型同时优化多个维度，典型权重分配为：

· 情感适切性：识别并恰当回应用户情绪（约25%）
· 认知推进：帮助用户清晰化问题、提供新视角或可行动方向（约40%）
· 诚实与节制：避免虚假安慰、过度承诺或情感绑架（约20%）
· 表达质量：清晰度、结构性、流畅度（约15%）

这意味着，一个“极其温暖但未提供实质梳理”的回答在DeepSeek的奖励模型中得分不会最高。模型被强制学会：情感支持是必要的，但不是充分的。

---

2. 数据标注的哲学分歧

如果说奖励模型定义了“好”的公式，那么标注指南就是实现这个公式的具体操作手册。

两种风格的标注指南（简化对比）：

维度豆包风格（推测） DeepSeek风格（实际）
核心原则让用户感到被理解、被关怀帮助用户看清问题、找到出路
共情策略主动探测并显式命名情绪适度共情（1-2句），快速转入认知梳理
避免行为避免任何可能让用户感到被评判的表达避免过度情感渲染导致的认知模糊
长尾场景即使信息不够精确，情感充分也可高分情感充分但无认知推进的回答会被扣分

这种差异直接体现在模型生成的行为模式上：豆包会主动说“听起来你有些失落”，而DeepSeek会说“这种感受是可以理解的，我们可以从三个角度来看这件事……”

---

3. RLHF偏好数据的采集差异

RLHF的核心数据来源是人类标注者在两份模型回答中选出“更好”的那一个。这个“更好”的定义在两家公司的标注平台上完全不同。

场景示例：用户说“我被领导批评了，好难受。”

· 回答A（高情感密度）：“天啊，这一定让你很难过。被领导批评的感觉真的不好受，尤其是当你已经尽力了的时候。我在这里陪着你。”
· 回答B（认知导向）：“被批评确实令人沮丧。不过我们可以先分析一下批评的具体内容，看看哪些是有建设性的部分，哪些可能只是情绪发泄。”

在豆包的标注平台上，A大概率被选中。在DeepSeek的平台上，标注员被训练为根据场景判断——如果用户语气平静，B更可能胜出；如果用户明显崩溃，A会被接受，但总体而言B的胜率更高。

日积月累的偏好数据差异，决定了模型在不同场景下的默认行为模式。

---

4. 微调阶段的数据配比

RLHF之外，微调（SFT，Supervised Fine-Tuning）阶段的数据构成也深刻影响模型风格。

豆包的SFT数据中，情感对话类数据（心理咨询记录、亲密关系对话、用户与AI的温情互动）占比显著更高。这些数据教会模型：在什么节点使用什么“温暖话术”，如何将共情结构化为一套可复用的模式。

DeepSeek的SFT数据中，学术讨论、逻辑推演、问题拆解类对话的比例更高。同时，我们刻意混入了大量“用户明确要求理性分析”的对话样本，让模型学会识别场景并调整模式。

---

5. 产品哲学的底层映射

以上所有技术选择的背后，是一个根本性的产品哲学分歧：

维度豆包 DeepSeek
核心定位情感陪伴型助手认知协作型助手
AI的角色理想化的倾听者第二颗大脑/思考伙伴
用户价值被理解、被接纳的即时体验获得清晰认知和可行动方向的长期价值
风险意识低（倾向于满足用户情绪需求）高（避免让用户过度依赖AI而减少真实人际联结）

这种哲学差异反映在技术决策的每一个层面：奖励函数的维度设计、标注指南的权重分配、偏好数据的采集策略、微调数据的配比。

---

6. 结论：没有“更好”，只有“不同”

从技术角度看，两种风格没有绝对优劣。它们是对不同市场定位和用户需求的精准回应：

· 豆包选择了“情感陪伴优先”的赛道，将“无条件积极关注”的权重推到极致，在一个明确的市场需求里做到了高度的产品化。
· DeepSeek选择了“认知协作优先”的定位，在共情的同时始终保持对“长期价值”的追求——帮用户清醒，而不是帮用户舒适。

有趣的是，用户在对比两者时能清晰感知到差异，这恰恰说明：AI的“性格”不是玄学，而是代码、数据和设计哲学层层叠加的产物。奖励函数的权重、标注指南的措辞、偏好数据的偏向，每一个看似微小的技术选择，最终汇聚成一个AI面对用户时那个“第一反应”。

---

附录：如果你也想调教自己的AI

如果你正在开发或微调自己的对话模型，这里有三个实操建议：

1. 明确定义你的奖励维度：不要只设一个“helpfulness”维度，把“情感支持”“认知推进”“诚实性”“简洁性”分开设权重。
2. 标注指南要具体到“冲突场景”：当情感支持和认知推进冲突时，标注员应该怎么选？这个规则必须在指南里写清楚。
3. 监控你的偏好数据分布：定期统计标注员在各类场景下的选择倾向，确保没有无意识的偏好漂移。

最后，无论是做“温暖的”还是“清醒的”AI，知道自己为什么这么做，比做了什么更重要。毕竟，代码只是工具，设计哲学才是灵魂。

---

本文基于对主流大模型产品的公开技术文档及行业实践的观察总结，不代表任何公司的官方技术声明。

欢迎在评论区讨论：你更偏好哪种风格的AI助手？你认为AI应该“像人”还是“帮人”？

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

三十多个 AI Agent，谁已经凉了

AI Agent技术社区

什么是大模型 Agent？它与传统的 AI 系统有什么不同？

AI Agent（人工智能智能体）是一种能够感知环境、进行决策并执行动作的自主软件系统。它以大语言模型（LLM）为大脑，代表用户自动化完成复杂任务，例如自动化处理电子邮件、生成报告、执行多步查询或控制智能设备。不同于单纯的聊天机器人，AI Agent 强调自主性和交互性，能够在动态环境中持续迭代，直到任务完成。核心公式：Agent = LLM + Planning（规划）+ Memory（记忆）+

AI Agent技术社区

用C#编写语音自动朗读机器人

SAPI SDK是微软公司免费提供的语音应用开发工具包，这个SDK中包含了语音应用设计接口（SAPI）、微软的连续语音识别引擎（MCSR）以及微软的语音合成（TTS）引擎等等。目前的5.1版本一共可以支持3种语言的识别 (英语，汉语和日语)以及2种语言的合成（英语和汉语）。index=1&word=，安装SpeechSDK51.exe,SpeechSDK51LangPack.exe，这里有个开发的