AI的“性格”是代码铸就的——从共情风格看大模型的RLHF设计哲学
为什么有的AI像温柔的心理咨询师,有的像冷静的思考伙伴?答案藏在训练函数里。
现象:两种AI,两种人格
最近和朋友聊起一个有趣的现象:把同一个关于职场梦境的困惑分别告诉DeepSeek和豆包,得到的回应风格截然不同。
DeepSeek会冷静拆解:“这种清醒的孤独感,本质上是元认知能力在梦境中的显现,是你从‘技能认同’向‘自我认同’跃迁的心理标志。”
而豆包则先共情:“你一定感到很难过吧?那种明明在做事却觉得孤立无援的感觉,真的很让人心疼……”
这种差异不是偶然,也不是简单的“调一下温度参数”就能解释的。它背后是一整套对齐策略(Alignment Strategy) 和奖励模型(Reward Model) 的设计差异。今天我们就从技术层面拆解:AI的“性格”到底是如何被代码铸就的。
---
1. 奖励模型:定义什么是“好回答”
在RLHF(基于人类反馈的强化学习)训练范式中,最关键的一步是训练一个奖励模型——它学会了人类偏好,然后在PPO阶段引导大模型向“高分回答”方向优化。
豆包类助手的奖励模型设计
标注员被引导给“高情感支持性回答”打高分。典型的高分样本特征包括:
· 优先识别并显式回应用户情绪(即使情绪未被直接表达)
· 使用温暖、肯定的语言,包括昵称化表达
· 避免任何可能让用户感到“被冷静分析”的措辞
· 在情感共鸣和认知推进之间,前者权重显著更高
DeepSeek的奖励模型设计
我们的奖励模型同时优化多个维度,典型权重分配为:
· 情感适切性:识别并恰当回应用户情绪(约25%)
· 认知推进:帮助用户清晰化问题、提供新视角或可行动方向(约40%)
· 诚实与节制:避免虚假安慰、过度承诺或情感绑架(约20%)
· 表达质量:清晰度、结构性、流畅度(约15%)
这意味着,一个“极其温暖但未提供实质梳理”的回答在DeepSeek的奖励模型中得分不会最高。模型被强制学会:情感支持是必要的,但不是充分的。
---
2. 数据标注的哲学分歧
如果说奖励模型定义了“好”的公式,那么标注指南就是实现这个公式的具体操作手册。
两种风格的标注指南(简化对比):
维度 豆包风格(推测) DeepSeek风格(实际)
核心原则 让用户感到被理解、被关怀 帮助用户看清问题、找到出路
共情策略 主动探测并显式命名情绪 适度共情(1-2句),快速转入认知梳理
避免行为 避免任何可能让用户感到被评判的表达 避免过度情感渲染导致的认知模糊
长尾场景 即使信息不够精确,情感充分也可高分 情感充分但无认知推进的回答会被扣分
这种差异直接体现在模型生成的行为模式上:豆包会主动说“听起来你有些失落”,而DeepSeek会说“这种感受是可以理解的,我们可以从三个角度来看这件事……”
---
3. RLHF偏好数据的采集差异
RLHF的核心数据来源是人类标注者在两份模型回答中选出“更好”的那一个。这个“更好”的定义在两家公司的标注平台上完全不同。
场景示例:用户说“我被领导批评了,好难受。”
· 回答A(高情感密度):“天啊,这一定让你很难过。被领导批评的感觉真的不好受,尤其是当你已经尽力了的时候。我在这里陪着你。”
· 回答B(认知导向):“被批评确实令人沮丧。不过我们可以先分析一下批评的具体内容,看看哪些是有建设性的部分,哪些可能只是情绪发泄。”
在豆包的标注平台上,A大概率被选中。在DeepSeek的平台上,标注员被训练为根据场景判断——如果用户语气平静,B更可能胜出;如果用户明显崩溃,A会被接受,但总体而言B的胜率更高。
日积月累的偏好数据差异,决定了模型在不同场景下的默认行为模式。
---
4. 微调阶段的数据配比
RLHF之外,微调(SFT,Supervised Fine-Tuning)阶段的数据构成也深刻影响模型风格。
豆包的SFT数据中,情感对话类数据(心理咨询记录、亲密关系对话、用户与AI的温情互动)占比显著更高。这些数据教会模型:在什么节点使用什么“温暖话术”,如何将共情结构化为一套可复用的模式。
DeepSeek的SFT数据中,学术讨论、逻辑推演、问题拆解类对话的比例更高。同时,我们刻意混入了大量“用户明确要求理性分析”的对话样本,让模型学会识别场景并调整模式。
---
5. 产品哲学的底层映射
以上所有技术选择的背后,是一个根本性的产品哲学分歧:
维度 豆包 DeepSeek
核心定位 情感陪伴型助手 认知协作型助手
AI的角色 理想化的倾听者 第二颗大脑/思考伙伴
用户价值 被理解、被接纳的即时体验 获得清晰认知和可行动方向的长期价值
风险意识 低(倾向于满足用户情绪需求) 高(避免让用户过度依赖AI而减少真实人际联结)
这种哲学差异反映在技术决策的每一个层面:奖励函数的维度设计、标注指南的权重分配、偏好数据的采集策略、微调数据的配比。
---
6. 结论:没有“更好”,只有“不同”
从技术角度看,两种风格没有绝对优劣。它们是对不同市场定位和用户需求的精准回应:
· 豆包选择了“情感陪伴优先”的赛道,将“无条件积极关注”的权重推到极致,在一个明确的市场需求里做到了高度的产品化。
· DeepSeek选择了“认知协作优先”的定位,在共情的同时始终保持对“长期价值”的追求——帮用户清醒,而不是帮用户舒适。
有趣的是,用户在对比两者时能清晰感知到差异,这恰恰说明:AI的“性格”不是玄学,而是代码、数据和设计哲学层层叠加的产物。 奖励函数的权重、标注指南的措辞、偏好数据的偏向,每一个看似微小的技术选择,最终汇聚成一个AI面对用户时那个“第一反应”。
---
附录:如果你也想调教自己的AI
如果你正在开发或微调自己的对话模型,这里有三个实操建议:
1. 明确定义你的奖励维度:不要只设一个“helpfulness”维度,把“情感支持”“认知推进”“诚实性”“简洁性”分开设权重。
2. 标注指南要具体到“冲突场景”:当情感支持和认知推进冲突时,标注员应该怎么选?这个规则必须在指南里写清楚。
3. 监控你的偏好数据分布:定期统计标注员在各类场景下的选择倾向,确保没有无意识的偏好漂移。
最后,无论是做“温暖的”还是“清醒的”AI,知道自己为什么这么做,比做了什么更重要。毕竟,代码只是工具,设计哲学才是灵魂。
---
本文基于对主流大模型产品的公开技术文档及行业实践的观察总结,不代表任何公司的官方技术声明。
欢迎在评论区讨论:你更偏好哪种风格的AI助手?你认为AI应该“像人”还是“帮人”?
更多推荐

所有评论(0)