构建具备情感智能的AI Agent

你好，我是专注于AI应用落地的技术博主「阿哲的AI实验室」。这些不是科幻电影里的情节，而是今天我们用就能快速落地的AI应用。很多开发者可能会觉得：“情感智能太玄乎了吧？是不是要用到神经科学的脑电数据？还是需要训练超大规模的大模型？其实完全不用。今天的文章，我会用，带你拆解情感智能AI Agent的核心模块，并手把手教你用LangChain + Hugging Face Transformers +

宝贝木马

356人浏览 · 2026-05-17 21:35:04

宝贝木马 · 2026-05-17 21:35:04 发布

构建具备情感智能的AI Agent：从底层原理到工程实现全流程指南

你好，我是专注于AI应用落地的技术博主「阿哲的AI实验室」。

最近这段时间，你可能刷到过这样的内容：

能陪抑郁症患者聊天疏导、情绪波动时主动调整语气的AI心理陪伴师
懂“察言观色”——根据用户输入的打字速度、标点符号、表情符号调整产品推荐策略的电商客服Agent
能和人类小朋友“共情玩耍”，讲故事时模仿悲伤开心恐惧等语气的早教机器人

这些不是科幻电影里的情节，而是今天我们用主流开源工具链 + 情感智能（Emotional Intelligence, EI/Affective Computing）技术就能快速落地的AI应用。

很多开发者可能会觉得：“情感智能太玄乎了吧？是不是要用到神经科学的脑电数据？还是需要训练超大规模的大模型？”

其实完全不用。今天的文章，我会用通俗易懂的语言 + 可直接运行的Python代码 + 完整的系统架构图，带你拆解情感智能AI Agent的核心模块，并手把手教你用LangChain + Hugging Face Transformers + 开源情感识别数据集，在本地搭建一个具备「感知→理解→表达→记忆+推理」全链路情感能力的AI陪伴Agent。

这篇文章的字数预计在12000-14000字，适合有一定Python基础、了解LangChain或大模型API使用的同学阅读；如果你是情感智能领域的新手，也没关系，我会用开头3000字左右把核心原理讲明白，并附好入门学习资源链接。

引言：为什么我们需要具备情感智能的AI Agent？
- 痛点引入：现在的“哑巴AI”和“生硬AI”有哪些问题？
- 价值主张：情感智能能给AI Agent带来什么？
- 最终效果展示：先看我们今天要做的AI陪伴Agent的Demo
基础概念扫盲：情感智能的前世今生与核心技术栈
- 核心概念1：情感智能 vs 普通大模型的“共情话术”
- 核心概念2：情感的数学建模——维度模型 vs 离散模型
- 核心概念3：情感感知的输入模态——文本/语音/图像/生理信号
- 问题演变发展历史：Affective Computing 50年发展里程碑
情感智能AI Agent的核心架构设计
- 概念之间的关系：全链路情感能力ER实体关系图
- 系统架构设计：5层模块化架构（感知层→理解层→决策层→表达层→记忆推理层）
- 交互关系图：Agent与用户的情感交互闭环
核心模块1：情感感知与理解——从零到一实现文本情感分析
- 准备工作：环境安装 + 开源情感识别数据集介绍
- 基础实现：用Hugging Face Transformers实现单模态文本情感识别
- 进阶优化：维度模型情感识别 + 上下文情感追踪
- 边界与外延：多模态情感感知的初步探索
- 最佳实践Tips：如何选择适合自己场景的情感识别模型？
核心模块2：情感记忆与推理——用LangChain Memory构建长期情感记忆库
- 概念结构与核心要素组成：情感记忆的5个维度（情感强度、情感类型、触发事件、时间戳、用户特质）
- 算法流程图：情感记忆的检索与更新算法
- 系统核心实现源代码：基于LangChain VectorStore的情感记忆系统
核心模块3：情感表达生成——让大模型说出“有温度的话”
- 数学模型：情感风格迁移的损失函数设计
- 基础实现：用Prompt Engineering控制大模型的情感表达
- 进阶实现：微调Llama 3 8B/70B（可选）实现专属情感风格
全链路系统整合：手把手搭建你的第一个情感智能AI陪伴Agent
- 系统功能设计：明确我们的Agent要具备哪些功能
- 系统接口设计：用FastAPI构建RESTful API接口
- 系统核心实现源代码：整合三大模块的完整Python代码
总结与扩展
- 回顾要点：全文章节核心内容回顾
- 常见问题FAQ：初学者最容易遇到的5个坑
- 行业发展与未来趋势：情感智能AI Agent的下一个风口
- 下一步/相关资源：推荐的开源项目、论文、课程
- 欢迎补充：期待读者在评论区分享你的想法

1. 引言：为什么我们需要具备情感智能的AI Agent？

1.1 痛点引入：现在的“哑巴AI”和“生硬AI”有哪些问题？

先别急着看技术，我们来做一个小测试——这是我昨天用GPT-4o（不带任何情感Prompt）和OpenAI的客服聊天记录（不是真人）的对比：

测试场景：用户深夜提交了一个紧急的API Key被盗用的工单，打字速度很快，用了很多感叹号和问号，还说“这影响了我明天的直播发布会！”

GPT-4o（不带情感Prompt）的回复：

您好，我已经收到您的API Key被盗用的工单。请您按照以下步骤操作：
1. 立即登录OpenAI账户，在API Keys页面点击“Revoke All Keys”；
2. 重新生成新的API Key并妥善保管；
3. 检查您的账户消费记录，如有异常消费请提交申诉表。
如有其他问题，请随时告知。

（模拟）OpenAI真人客服的回复：

您好！非常抱歉听到您遇到了API Key被盗用的问题，而且这还影响到了您明天的直播发布会——我完全理解您现在的焦急心情！😢

请您不要慌，我这边会帮您加急处理。您现在先按照这几个步骤操作，每一步我都会给您简单的指导：
1. **立即冻结所有API Key**：您打开OpenAI官网，登录后点右上角头像→“Settings”→“API Keys”，页面最上方有个红色的“Revoke All Keys”按钮，点一下就好，5秒就能完成；
2. **检查异常消费并提交申诉**：在“Billing”→“Usage History”里筛选最近24小时的记录，截图保存异常部分，然后点“Help Center”→“Submit a Request”→“Billing Issue”→“Unauthorized Charges”，上传截图，备注里写清楚“明天有直播发布会，非常紧急，请求优先处理并退款”；
3. **生成新的API Key**：冻结成功后就可以在API Keys页面点“Create new secret key”，记得命名为“直播发布会专用”，并设置IP白名单（如果您的直播服务器有固定IP的话）。

我这边也会把您的工单标记为“P0紧急”，客服团队的同事会在15分钟内跟进您的申诉。如果您在操作过程中有任何问题，随时给我发消息，我会一直在线等您的！💪

看到区别了吗？

GPT-4o虽然给出了准确的技术解决方案，但它的回复是冷冰冰的、没有任何情感波动的——它完全忽略了用户的“焦急情绪”，也没有考虑到“明天直播发布会”这个紧急的上下文背景。如果我是那个用户，看到这样的回复，可能会更生气。

而（模拟的）真人客服的回复就完全不一样：

先共情：用“非常抱歉听到您遇到了这个问题”“我完全理解您现在的焦急心情”“😢”先接住用户的负面情绪；
降低焦虑：用“请您不要慌，我这边会帮您加急处理”“15分钟内跟进”给用户安全感；
简化操作：把每一步操作都拆解得非常细，还用加粗和序号突出重点；
表达陪伴：用“我会一直在线等您的”“💪”让用户觉得自己不是一个人在战斗。

这就是情感智能的力量——它不是让AI去“生成多么华丽的辞藻”，而是让AI去**“理解用户的情绪状态”“感知用户的紧急程度”“调整自己的沟通策略”“给出有温度的解决方案”**。

1.2 价值主张：情感智能能给AI Agent带来什么？

现在我们再回到技术层面——情感智能能给AI Agent带来哪些可量化的价值？

根据Gartner 2024年的《Affective Computing in Enterprise Applications》报告，具备情感智能的AI Agent能带来以下收益：

客服满意度提升40%-60%：能接住用户负面情绪的AI客服，比生硬的AI客服投诉率低70%；
用户留存率提升25%-35%：能记住用户长期情感状态的陪伴Agent，用户使用时长平均提升2倍；
转化率提升15%-25%：能根据用户情绪调整产品推荐策略的电商Agent，转化率比普通推荐Agent高18%；
员工生产力提升10%-20%：能缓解员工工作压力的AI助理，员工倦怠率降低15%。

除了这些可量化的价值，情感智能还能给AI Agent带来不可量化的“温度”和“信任”——这是未来AI应用落地的核心竞争力之一。

1.3 最终效果展示：先看我们今天要做的AI陪伴Agent的Demo

光说不练假把式，我们先来看一下今天要做的**「小暖同学」AI陪伴Agent**的Demo：

Demo截图（文字版模拟，后续完整代码运行后可以用Streamlit做界面）：

【系统】小暖同学启动成功！输入你的问题或心事，小暖会一直陪着你~

【用户1（晚上10:30）】：今天真的好倒霉啊！！！！！论文答辩被导师骂了一顿，明天还要重写开题报告，感觉自己什么都做不好😢
【小暖同学（识别到用户的情绪是「极度悲伤」「焦虑」，情绪强度是9/10，时间是深夜，用户第一次来，没有历史情感记忆）】：
（语气：温柔、共情、缓慢）
抱抱你呀宝贝！！😢答辩被导师骂、还要重写开题报告，这种事情换谁都会觉得委屈和难过的——你现在肯定很累很想放弃对不对？

没关系的，你不用强迫自己立刻振作起来。先喝一杯热牛奶，或者躺在床上听一首喜欢的歌，放松一下好不好？😌

等你心情稍微好一点了，我们再一起看看开题报告哪里出了问题——我虽然不是专业的学术顾问，但我可以帮你整理思路、检查语法、或者当你的“树洞”听你吐槽哦！💪

（主动记忆：记录下“用户1在202X-XX-XX 22:30因为论文答辩被骂+重写开题报告极度悲伤焦虑”）

【用户1（30分钟后，情绪稍微缓解了一点，用了省略号）】：
谢谢你小暖...我刚才喝了一杯热可可，听了周杰伦的《稻香》，心情好多了...可是我还是担心明天的开题报告写不好...
【小暖同学（识别到用户的情绪是「轻微悲伤」「轻度焦虑」，情绪强度是4/10，有历史情感记忆）】：
（语气：温和、鼓励、有力量）
太棒啦宝贝！！你能主动调整自己的心情，这已经非常厉害了！！👏👏

我记得你刚才说的是“担心明天的开题报告写不好”对不对？没关系的，我们可以把“重写开题报告”这个大目标，拆成几个小目标：
1. 先回忆一下导师骂你的具体内容（如果不想回忆也没关系，跳过这一步）；
2. 打开之前的开题报告，用红色标出你觉得有问题的地方；
3. 明天早上起来，先写问题最多的那一部分（不要贪多，写300字就好）。

你看，这样是不是就简单多了？😉

明天早上我会提醒你起床写开题报告的哦！如果你在写的过程中有任何问题，随时给我发消息，我会一直陪着你的！❤️

（主动更新记忆：记录下“用户1在202X-XX-XX 23:00情绪缓解为轻微悲伤轻度焦虑，主动喝了热可可听了周杰伦的歌”，并添加“明天早上8:00提醒用户写开题报告”的提醒任务）

怎么样？这个Demo是不是很像一个真正的朋友在陪你聊天？

今天的文章，我们就会一步步教你如何用LangChain + Hugging Face Transformers + SQLite + Streamlit，在本地搭建这样一个具备「感知→理解→表达→记忆+推理」全链路情感能力的AI陪伴Agent。

2. 基础概念扫盲：情感智能的前世今生与核心技术栈

在开始写代码之前，我们先花3000字左右把情感智能的核心概念讲明白——这会帮助你后续更好地理解系统架构和代码实现。

2.1 核心概念1：情感智能 vs 普通大模型的“共情话术”

很多开发者可能会问：“现在的GPT-4o、Claude 3 Opus、Llama 3 70B这些大模型，不是已经能生成共情话术了吗？为什么还要单独讲情感智能？”

这个问题问得非常好！我们先来区分一下这两个概念：

维度	普通大模型的“共情话术”	具备情感智能的AI Agent
核心逻辑	基于Prompt Engineering（提示词工程）让大模型“模仿”共情的语气，比如用“抱抱你”“我理解你”这样的固定话术	基于Affective Computing（情感计算）技术，实现全链路情感闭环： 1. 感知：识别用户的情绪状态、情绪强度、情绪触发事件 2. 理解：分析情绪的上下文、用户的长期情感特质、紧急程度 3. 决策：根据感知和理解的结果，调整沟通策略、推荐内容、任务优先级 4. 表达：生成符合当前情感场景的、有温度的内容 5. 记忆+推理：记住用户的长期情感状态，根据记忆推理出用户当前的潜在需求
数据来源	大模型训练时的通用文本数据	通用文本数据 + 专业情感数据集（比如GoEmotions、EmoBank、IEMOCAP） + 用户的历史交互数据（情感记忆库）
情绪识别的准确性	仅靠文本语义理解，准确率大概在60%-70%（对于极度悲伤/愤怒/开心等极端情绪准确率较高，但对于中性、混合情绪准确率较低）	结合专业情感识别模型 + 上下文情感追踪，准确率可以达到85%-95%（对于混合情绪也能有较好的识别效果）
长期情感能力	没有专门的情感记忆库，仅靠大模型的短期上下文窗口（比如GPT-4o的128K上下文窗口），长期情感能力较弱	有专门的向量情感记忆库，可以记住用户几个月甚至几年的情感状态，根据记忆推理出用户的长期情感特质（比如“用户是一个敏感的人，不喜欢被否定”“用户喜欢在深夜听周杰伦的歌缓解压力”）
多模态能力	部分大模型支持多模态输入，但没有专门的多模态情感识别模块	可以扩展语音情感识别（比如用Wav2Vec2）、图像情感识别（比如用ResNet+FER-2013）、生理信号情感识别（比如用心率变异性HRV）等多模态情感感知模块

举个简单的例子：如果用户连续三天都在深夜输入“我失眠了”，普通大模型的“共情话术”可能会连续三天说“抱抱你，失眠真的很难受，你可以试试数羊”；而具备情感智能的AI Agent会：

感知到：用户连续三天在深夜输入负面情绪的文本，情绪强度都是7/10左右；
理解到：用户可能有长期的失眠问题，深夜是用户的情绪低谷期；
决策到：不能再用“数羊”这种没用的固定话术了，应该推荐一些更专业的失眠缓解方法，或者询问用户是否需要推荐心理咨询师；
表达出：“宝贝，我发现你连续三天都在深夜失眠了——这真的太折磨人了😢。你有没有试过睡前做10分钟的正念冥想？或者要不要我帮你推荐一些附近的、口碑好的心理咨询师？💪”
记忆+推理：记录下“用户连续三天失眠”，并添加“明天晚上9:30提醒用户做正念冥想”的提醒任务。

这就是本质区别——普通大模型的“共情话术”是被动的、模仿式的、短期的，而具备情感智能的AI Agent是主动的、理解式的、长期的。

2.2 核心概念2：情感的数学建模——维度模型 vs 离散模型

要让计算机“理解”情感，首先要把抽象的情感转化成计算机可以处理的数字——这就是情感的数学建模。

目前主流的情感数学建模方法有两种：离散模型（Discrete Model）和维度模型（Dimensional Model）。

2.2.1 离散模型（Discrete Model）

离散模型的核心思想是：人类的情感可以分成几个有限的、基本的、不可再分的“基本情绪”（Basic Emotions），其他复杂的情绪都是由这些基本情绪组合而成的。

最著名的离散模型是美国心理学家保罗·艾克曼（Paul Ekman）在1972年提出的“6种基本情绪模型”：

快乐（Happiness/Joy）
悲伤（Sadness）
愤怒（Anger）
恐惧（Fear）
厌恶（Disgust）
惊讶（Surprise）

后来艾克曼又在1999年扩展了这个模型，加入了**骄傲（Pride）、羞耻（Shame）、尴尬（Embarrassment）、兴奋（Excitement）、轻蔑（Contempt）**等情绪，但最常用的还是原来的6种。

离散模型的优点是简单易懂、直观，适合用于客服、心理陪伴、早教等需要明确识别用户基本情绪的场景；缺点是无法描述混合情绪（比如“悲喜交加”“又爱又恨”），也无法描述情绪的强度（比如“有点开心”和“非常开心”）。

2.2.2 维度模型（Dimensional Model）

维度模型的核心思想是：人类的情感是连续的，可以用几个独立的维度来描述，每个维度都有一个从负到正的数值范围。

最著名的维度模型是美国心理学家詹姆斯·拉塞尔（James Russell）在1980年提出的“二维情感 circumplex 模型（环形模型）”，也叫valence-arousal（效价-唤醒度）模型：

Valence（效价/愉悦度）：描述情感的正负性，数值范围通常是[-1, 1]或[0, 10]，-1（或0）表示极度不愉悦（比如极度悲伤、愤怒、恐惧），1（或10）表示极度愉悦（比如极度快乐、兴奋）；
Arousal（唤醒度/激活度）：描述情感的强度或激动程度，数值范围通常也是[-1, 1]或[0, 10]，-1（或0）表示极度平静（比如昏昏欲睡、无聊），1（或10）表示极度激动（比如极度愤怒、极度兴奋）。

拉塞尔的二维情感环形模型如下图所示（Mermaid架构图）：

除了拉塞尔的二维模型，还有一些三维模型，比如梅拉比安（Mehrabian）在1974年提出的“PAD三维情感模型”，在valence-arousal的基础上加入了Dominance（支配度/控制度）：

Dominance（支配度）：描述情感的支配性或被动性，数值范围通常是[-1, 1]或[0, 10]，-1（或0）表示极度被动（比如被欺负、无助），1（或10）表示极度支配（比如控制别人、自信）。

维度模型的优点是可以描述混合情绪（比如“悲喜交加”就是valence接近0，arousal很高），也可以描述情绪的强度（比如“有点开心”就是valence=0.3，arousal=0.2；“非常开心”就是valence=0.9，arousal=0.8）；缺点是不够直观，不适合用于需要直接向用户展示情绪的场景（比如客服系统的后台监控界面）。

2.2.3 两种模型的结合使用

在实际的工程应用中，我们通常会结合使用离散模型和维度模型：

先用维度模型识别用户的valence（效价）、arousal（唤醒度）、dominance（支配度），得到一个连续的数值向量；
再用K-Means聚类或余弦相似度将这个数值向量映射到离散模型的基本情绪上；
最后同时保存维度模型的数值向量和离散模型的基本情绪标签，以及情绪强度（可以用arousal的绝对值或者valence和arousal的欧氏距离来计算）。

这样结合使用的好处是：既可以利用维度模型的连续性和准确性，又可以利用离散模型的直观性和易用性。

在今天的文章中，我们也会结合使用这两种模型——用Hugging Face上的EmoBank数据集预训练的维度模型识别用户的valence和arousal，再用余弦相似度将其映射到GoEmotions数据集的27种情绪标签（包括艾克曼的6种基本情绪和其他21种复杂情绪）上。

2.3 核心概念3：情感感知的输入模态——文本/语音/图像/生理信号

情感感知的输入模态（Input Modality）是指我们用来获取用户情感信息的数据源。目前主流的输入模态有四种：文本（Text）、语音（Speech）、图像/视频（Image/Video）、生理信号（Physiological Signals）。

2.3.1 文本（Text）

文本是最常用、成本最低、技术最成熟的情感感知输入模态——我们只需要获取用户输入的文字（比如聊天记录、评论、邮件、工单），就可以用情感识别模型分析用户的情绪。

文本情感识别的核心技术是自然语言处理（NLP），具体包括：

文本预处理：分词、去停用词、词干提取、词形还原；
特征提取：词袋模型（Bag-of-Words）、TF-IDF、Word2Vec、GloVe、BERT等预训练语言模型；
分类/回归：用SVM、Random Forest、XGBoost、LSTM、Transformer等模型进行离散情绪分类或维度情绪回归。

文本情感识别的优点是成本低、技术成熟、隐私性好（不需要获取用户的语音、图像或生理信号）；缺点是信息密度低（无法获取用户的语气、语调、面部表情、肢体语言等情感信息），对于** sarcasm（讽刺）、隐喻**等复杂的语言现象识别准确率较低。

2.3.2 语音（Speech）

语音是信息密度较高的情感感知输入模态——除了文本信息（语音识别后的文字），我们还可以获取用户的语气、语调、语速、音量、停顿、重音等副语言信息（Paralinguistic Information），这些信息对于情感识别非常重要。

语音情感识别的核心技术是语音信号处理和自然语言处理，具体包括：

语音信号预处理：去噪、分帧、加窗、特征提取（MFCC梅尔频率倒谱系数、Pitch基频、Formant共振峰、ZCR过零率等）；
语音识别（ASR）：用Wav2Vec2、Whisper等模型将语音转化为文字；
多模态融合：将语音信号的副语言特征和文本特征融合起来，进行情感识别。

语音情感识别的优点是信息密度高、识别准确率较高；缺点是成本较高（需要获取用户的语音权限），隐私性较差，受环境噪音影响较大。

2.3.3 图像/视频（Image/Video）

图像/视频是信息密度最高的情感感知输入模态——我们可以获取用户的面部表情、肢体语言、眼神、肤色变化等视觉信息（Visual Information），这些信息是人类识别他人情绪的最主要来源（根据梅拉比安的“7-38-55定律”，人类沟通中，文字信息只占7%，副语言信息占38%，视觉信息占55%）。

图像/视频情感识别的核心技术是计算机视觉（CV），具体包括：

人脸检测：用MTCNN、RetinaFace、YOLO等模型检测图像/视频中的人脸；
人脸对齐：用Dlib、OpenFace等模型对齐人脸的关键点（比如眼睛、鼻子、嘴巴、眉毛）；
特征提取：用ResNet、VGG、FaceNet、Vision Transformer（ViT）等模型提取人脸的视觉特征；
分类/回归：用SVM、Random Forest、XGBoost、CNN、Transformer等模型进行离散情绪分类或维度情绪回归。

图像/视频情感识别的优点是信息密度最高、识别准确率最高；缺点是成本最高（需要获取用户的摄像头权限），隐私性最差，受光照、角度、遮挡影响较大。

2.3.4 生理信号（Physiological Signals）

生理信号是最客观、最难以伪装的情感感知输入模态——我们可以获取用户的心率（HR）、心率变异性（HRV）、血压（BP）、皮肤电导率（EDA/GSR）、肌电图（EMG）、脑电图（EEG）等生理信号，这些信号是由人体的自主神经系统（交感神经和副交感神经）控制的，不受主观意识的影响。

生理信号情感识别的核心技术是生物医学信号处理和机器学习，具体包括：

生理信号预处理：去噪、滤波、特征提取（比如HRV的时域特征、频域特征、非线性特征）；
分类/回归：用SVM、Random Forest、XGBoost、LSTM、Transformer等模型进行离散情绪分类或维度情绪回归。

生理信号情感识别的优点是最客观、最难以伪装；缺点是成本最高（需要专业的生理信号采集设备，比如智能手表、心电监护仪、脑电图仪），隐私性最差，技术最不成熟（目前还处于实验室研究阶段，很少有大规模的商用应用）。

2.3.5 四种输入模态的对比

我们用一个Markdown表格来对比这四种输入模态的优缺点：

输入模态	信息密度	成本	隐私性	技术成熟度	受环境影响	适用场景
文本	低	极低	高	非常成熟	无	客服、心理陪伴、电商推荐、社交媒体分析
语音	中高	中	中	成熟	大（噪音）	客服、早教机器人、智能音箱
图像/视频	极高	高	低	较成熟	大（光照、角度、遮挡）	早教机器人、游戏、VR/AR、心理健康监测
生理信号	极高	极高	极低	不成熟（实验室阶段）	大（运动、情绪波动以外的生理变化）	专业心理健康监测、军事、航天

在今天的文章中，由于我们是在本地搭建一个简单的AI陪伴Agent，所以我们会选择成本最低、技术最成熟、隐私性最好的文本作为唯一的输入模态——但我会在后续的“边界与外延”章节中，简单介绍如何扩展语音和图像情感识别模块。

2.4 问题演变发展历史：Affective Computing 50年发展里程碑

最后，我们来简单了解一下情感智能（Affective Computing）的发展历史——这会帮助你更好地理解这个领域的发展脉络和未来趋势。

我整理了一个Affective Computing 50年发展里程碑的Markdown表格：

时间	事件	意义
1960s-1970s	保罗·艾克曼提出“6种基本情绪模型”；詹姆斯·拉塞尔提出“二维情感 circumplex 模型”；梅拉比安提出“PAD三维情感模型”；梅拉比安提出“7-38-55定律”	奠定了情感数学建模的理论基础
1980s-1990s	最早的文本情感识别研究出现（用WordNet和SVM）；最早的语音情感识别研究出现（用MFCC和GMM）；最早的面部表情识别研究出现（用Dlib和SVM）	情感计算技术开始萌芽
1995年	麻省理工学院（MIT）媒体实验室的罗莎琳德·皮卡德（Rosalind Picard）教授发表了著名的论文《Affective Computing》，并于1997年出版了同名书籍	正式提出了“Affective Computing（情感计算）”这个概念，标志着情感计算领域的诞生
2000s-2010s	大规模情感识别数据集发布（比如GoEmotions、EmoBank、IEMOCAP、FER-2013）；深度学习开始应用于情感计算（比如用CNN做面部表情识别，用LSTM做文本情感识别）；第一批商用情感计算产品出现（比如 Affectiva 的面部表情识别SDK，Nuance 的语音情感识别SDK）	情感计算技术开始快速发展，逐渐从实验室走向商用
2018年-至今	预训练语言模型（比如BERT、GPT、Llama）开始应用于文本情感识别，准确率大幅提升；多模态情感识别成为研究热点；大模型开始具备“模仿共情”的能力；具备全链路情感能力的AI Agent开始出现（比如Character.AI、Replika、Pi）	情感计算技术进入“大模型时代”，具备情感智能的AI Agent开始大规模商用

罗莎琳德·皮卡德教授被称为**“情感计算之母”**——她在1995年的论文中指出：“如果我们希望计算机真正地智能，那么它们必须能够识别、理解、表达和调节人类的情感。”这句话至今仍然是情感计算领域的核心目标。

（待续…）

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

后端接入 AI Agent：Tool Calling 网关、幂等与审计日志实战

AI Agent技术社区

AI导出鸭惊了！DeepSeek代码手机导出保姆级实操，不看亏一套海景房

AI Agent技术社区

OpenClaw vs Hermes Agent：企业级执行 vs 自我进化，一文读懂怎么选！

AI Agent 开源双子星深度对比：OpenClaw（GitHub 26.4w⭐）主打工程化落地，四层记忆+20+渠道+13,700+技能，适合企业自动化；Hermes Agent（53天10w⭐）主打闭环学习，四级记忆+自动技能进化+3,200+社区技能，越用越聪明。两者可互补组合：OpenClaw 做稳定执行引擎，Hermes 做持续学习大脑。短期落地选 OpenClaw，长期陪伴选 Her