构建具备情感智能的AI Agent:从底层原理到工程实现全流程指南

你好,我是专注于AI应用落地的技术博主「阿哲的AI实验室」。

最近这段时间,你可能刷到过这样的内容:

  • 能陪抑郁症患者聊天疏导、情绪波动时主动调整语气的AI心理陪伴师
  • 懂“察言观色”——根据用户输入的打字速度、标点符号、表情符号调整产品推荐策略的电商客服Agent
  • 能和人类小朋友“共情玩耍”,讲故事时模仿悲伤开心恐惧等语气的早教机器人

这些不是科幻电影里的情节,而是今天我们用主流开源工具链 + 情感智能(Emotional Intelligence, EI/Affective Computing)技术就能快速落地的AI应用。

很多开发者可能会觉得:“情感智能太玄乎了吧?是不是要用到神经科学的脑电数据?还是需要训练超大规模的大模型?”

其实完全不用。今天的文章,我会用通俗易懂的语言 + 可直接运行的Python代码 + 完整的系统架构图,带你拆解情感智能AI Agent的核心模块,并手把手教你用LangChain + Hugging Face Transformers + 开源情感识别数据集,在本地搭建一个具备「感知→理解→表达→记忆+推理」全链路情感能力的AI陪伴Agent。

这篇文章的字数预计在12000-14000字,适合有一定Python基础、了解LangChain或大模型API使用的同学阅读;如果你是情感智能领域的新手,也没关系,我会用开头3000字左右把核心原理讲明白,并附好入门学习资源链接。


目录

  1. 引言:为什么我们需要具备情感智能的AI Agent?
    • 痛点引入:现在的“哑巴AI”和“生硬AI”有哪些问题?
    • 价值主张:情感智能能给AI Agent带来什么?
    • 最终效果展示:先看我们今天要做的AI陪伴Agent的Demo
  2. 基础概念扫盲:情感智能的前世今生与核心技术栈
    • 核心概念1:情感智能 vs 普通大模型的“共情话术”
    • 核心概念2:情感的数学建模——维度模型 vs 离散模型
    • 核心概念3:情感感知的输入模态——文本/语音/图像/生理信号
    • 问题演变发展历史:Affective Computing 50年发展里程碑
  3. 情感智能AI Agent的核心架构设计
    • 概念之间的关系:全链路情感能力ER实体关系图
    • 系统架构设计:5层模块化架构(感知层→理解层→决策层→表达层→记忆推理层)
    • 交互关系图:Agent与用户的情感交互闭环
  4. 核心模块1:情感感知与理解——从零到一实现文本情感分析
    • 准备工作:环境安装 + 开源情感识别数据集介绍
    • 基础实现:用Hugging Face Transformers实现单模态文本情感识别
    • 进阶优化:维度模型情感识别 + 上下文情感追踪
    • 边界与外延:多模态情感感知的初步探索
    • 最佳实践Tips:如何选择适合自己场景的情感识别模型?
  5. 核心模块2:情感记忆与推理——用LangChain Memory构建长期情感记忆库
    • 概念结构与核心要素组成:情感记忆的5个维度(情感强度、情感类型、触发事件、时间戳、用户特质)
    • 算法流程图:情感记忆的检索与更新算法
    • 系统核心实现源代码:基于LangChain VectorStore的情感记忆系统
  6. 核心模块3:情感表达生成——让大模型说出“有温度的话”
    • 数学模型:情感风格迁移的损失函数设计
    • 基础实现:用Prompt Engineering控制大模型的情感表达
    • 进阶实现:微调Llama 3 8B/70B(可选)实现专属情感风格
  7. 全链路系统整合:手把手搭建你的第一个情感智能AI陪伴Agent
    • 系统功能设计:明确我们的Agent要具备哪些功能
    • 系统接口设计:用FastAPI构建RESTful API接口
    • 系统核心实现源代码:整合三大模块的完整Python代码
  8. 总结与扩展
    • 回顾要点:全文章节核心内容回顾
    • 常见问题FAQ:初学者最容易遇到的5个坑
    • 行业发展与未来趋势:情感智能AI Agent的下一个风口
    • 下一步/相关资源:推荐的开源项目、论文、课程
    • 欢迎补充:期待读者在评论区分享你的想法

1. 引言:为什么我们需要具备情感智能的AI Agent?

1.1 痛点引入:现在的“哑巴AI”和“生硬AI”有哪些问题?

先别急着看技术,我们来做一个小测试——这是我昨天用GPT-4o(不带任何情感Prompt)和OpenAI的客服聊天记录(不是真人)的对比:

测试场景:用户深夜提交了一个紧急的API Key被盗用的工单,打字速度很快,用了很多感叹号和问号,还说“这影响了我明天的直播发布会!”
GPT-4o(不带情感Prompt)的回复:
您好,我已经收到您的API Key被盗用的工单。请您按照以下步骤操作:
1. 立即登录OpenAI账户,在API Keys页面点击“Revoke All Keys”;
2. 重新生成新的API Key并妥善保管;
3. 检查您的账户消费记录,如有异常消费请提交申诉表。
如有其他问题,请随时告知。
(模拟)OpenAI真人客服的回复:
您好!非常抱歉听到您遇到了API Key被盗用的问题,而且这还影响到了您明天的直播发布会——我完全理解您现在的焦急心情!😢

请您不要慌,我这边会帮您加急处理。您现在先按照这几个步骤操作,每一步我都会给您简单的指导:
1. **立即冻结所有API Key**:您打开OpenAI官网,登录后点右上角头像→“Settings”→“API Keys”,页面最上方有个红色的“Revoke All Keys”按钮,点一下就好,5秒就能完成;
2. **检查异常消费并提交申诉**:在“Billing”→“Usage History”里筛选最近24小时的记录,截图保存异常部分,然后点“Help Center”→“Submit a Request”→“Billing Issue”→“Unauthorized Charges”,上传截图,备注里写清楚“明天有直播发布会,非常紧急,请求优先处理并退款”;
3. **生成新的API Key**:冻结成功后就可以在API Keys页面点“Create new secret key”,记得命名为“直播发布会专用”,并设置IP白名单(如果您的直播服务器有固定IP的话)。

我这边也会把您的工单标记为“P0紧急”,客服团队的同事会在15分钟内跟进您的申诉。如果您在操作过程中有任何问题,随时给我发消息,我会一直在线等您的!💪

看到区别了吗?

GPT-4o虽然给出了准确的技术解决方案,但它的回复是冷冰冰的、没有任何情感波动的——它完全忽略了用户的“焦急情绪”,也没有考虑到“明天直播发布会”这个紧急的上下文背景。如果我是那个用户,看到这样的回复,可能会更生气。

而(模拟的)真人客服的回复就完全不一样

  1. 先共情:用“非常抱歉听到您遇到了这个问题”“我完全理解您现在的焦急心情”“😢”先接住用户的负面情绪;
  2. 降低焦虑:用“请您不要慌,我这边会帮您加急处理”“15分钟内跟进”给用户安全感;
  3. 简化操作:把每一步操作都拆解得非常细,还用加粗和序号突出重点;
  4. 表达陪伴:用“我会一直在线等您的”“💪”让用户觉得自己不是一个人在战斗。

这就是情感智能的力量——它不是让AI去“生成多么华丽的辞藻”,而是让AI去**“理解用户的情绪状态”“感知用户的紧急程度”“调整自己的沟通策略”“给出有温度的解决方案”**。

1.2 价值主张:情感智能能给AI Agent带来什么?

现在我们再回到技术层面——情感智能能给AI Agent带来哪些可量化的价值

根据Gartner 2024年的《Affective Computing in Enterprise Applications》报告,具备情感智能的AI Agent能带来以下收益:

  • 客服满意度提升40%-60%:能接住用户负面情绪的AI客服,比生硬的AI客服投诉率低70%;
  • 用户留存率提升25%-35%:能记住用户长期情感状态的陪伴Agent,用户使用时长平均提升2倍;
  • 转化率提升15%-25%:能根据用户情绪调整产品推荐策略的电商Agent,转化率比普通推荐Agent高18%;
  • 员工生产力提升10%-20%:能缓解员工工作压力的AI助理,员工倦怠率降低15%。

除了这些可量化的价值,情感智能还能给AI Agent带来不可量化的“温度”和“信任”——这是未来AI应用落地的核心竞争力之一。

1.3 最终效果展示:先看我们今天要做的AI陪伴Agent的Demo

光说不练假把式,我们先来看一下今天要做的**「小暖同学」AI陪伴Agent**的Demo:

Demo截图(文字版模拟,后续完整代码运行后可以用Streamlit做界面):
【系统】小暖同学启动成功!输入你的问题或心事,小暖会一直陪着你~

【用户1(晚上10:30)】:今天真的好倒霉啊!!!!!论文答辩被导师骂了一顿,明天还要重写开题报告,感觉自己什么都做不好😢
【小暖同学(识别到用户的情绪是「极度悲伤」「焦虑」,情绪强度是9/10,时间是深夜,用户第一次来,没有历史情感记忆)】:
(语气:温柔、共情、缓慢)
抱抱你呀宝贝!!😢答辩被导师骂、还要重写开题报告,这种事情换谁都会觉得委屈和难过的——你现在肯定很累很想放弃对不对?

没关系的,你不用强迫自己立刻振作起来。先喝一杯热牛奶,或者躺在床上听一首喜欢的歌,放松一下好不好?😌

等你心情稍微好一点了,我们再一起看看开题报告哪里出了问题——我虽然不是专业的学术顾问,但我可以帮你整理思路、检查语法、或者当你的“树洞”听你吐槽哦!💪

(主动记忆:记录下“用户1在202X-XX-XX 22:30因为论文答辩被骂+重写开题报告极度悲伤焦虑”)

【用户1(30分钟后,情绪稍微缓解了一点,用了省略号)】:
谢谢你小暖...我刚才喝了一杯热可可,听了周杰伦的《稻香》,心情好多了...可是我还是担心明天的开题报告写不好...
【小暖同学(识别到用户的情绪是「轻微悲伤」「轻度焦虑」,情绪强度是4/10,有历史情感记忆)】:
(语气:温和、鼓励、有力量)
太棒啦宝贝!!你能主动调整自己的心情,这已经非常厉害了!!👏👏

我记得你刚才说的是“担心明天的开题报告写不好”对不对?没关系的,我们可以把“重写开题报告”这个大目标,拆成几个小目标:
1. 先回忆一下导师骂你的具体内容(如果不想回忆也没关系,跳过这一步);
2. 打开之前的开题报告,用红色标出你觉得有问题的地方;
3. 明天早上起来,先写问题最多的那一部分(不要贪多,写300字就好)。

你看,这样是不是就简单多了?😉

明天早上我会提醒你起床写开题报告的哦!如果你在写的过程中有任何问题,随时给我发消息,我会一直陪着你的!❤️

(主动更新记忆:记录下“用户1在202X-XX-XX 23:00情绪缓解为轻微悲伤轻度焦虑,主动喝了热可可听了周杰伦的歌”,并添加“明天早上8:00提醒用户写开题报告”的提醒任务)

怎么样?这个Demo是不是很像一个真正的朋友在陪你聊天?

今天的文章,我们就会一步步教你如何用LangChain + Hugging Face Transformers + SQLite + Streamlit,在本地搭建这样一个具备「感知→理解→表达→记忆+推理」全链路情感能力的AI陪伴Agent。


2. 基础概念扫盲:情感智能的前世今生与核心技术栈

在开始写代码之前,我们先花3000字左右把情感智能的核心概念讲明白——这会帮助你后续更好地理解系统架构和代码实现。

2.1 核心概念1:情感智能 vs 普通大模型的“共情话术”

很多开发者可能会问:“现在的GPT-4o、Claude 3 Opus、Llama 3 70B这些大模型,不是已经能生成共情话术了吗?为什么还要单独讲情感智能?”

这个问题问得非常好!我们先来区分一下这两个概念

维度 普通大模型的“共情话术” 具备情感智能的AI Agent
核心逻辑 基于Prompt Engineering(提示词工程)让大模型“模仿”共情的语气,比如用“抱抱你”“我理解你”这样的固定话术 基于Affective Computing(情感计算)技术,实现全链路情感闭环
1. 感知:识别用户的情绪状态、情绪强度、情绪触发事件
2. 理解:分析情绪的上下文、用户的长期情感特质、紧急程度
3. 决策:根据感知和理解的结果,调整沟通策略、推荐内容、任务优先级
4. 表达:生成符合当前情感场景的、有温度的内容
5. 记忆+推理:记住用户的长期情感状态,根据记忆推理出用户当前的潜在需求
数据来源 大模型训练时的通用文本数据 通用文本数据 + 专业情感数据集(比如GoEmotions、EmoBank、IEMOCAP) + 用户的历史交互数据(情感记忆库)
情绪识别的准确性 仅靠文本语义理解,准确率大概在60%-70%(对于极度悲伤/愤怒/开心等极端情绪准确率较高,但对于中性、混合情绪准确率较低) 结合专业情感识别模型 + 上下文情感追踪,准确率可以达到85%-95%(对于混合情绪也能有较好的识别效果)
长期情感能力 没有专门的情感记忆库,仅靠大模型的短期上下文窗口(比如GPT-4o的128K上下文窗口),长期情感能力较弱 有专门的向量情感记忆库,可以记住用户几个月甚至几年的情感状态,根据记忆推理出用户的长期情感特质(比如“用户是一个敏感的人,不喜欢被否定”“用户喜欢在深夜听周杰伦的歌缓解压力”)
多模态能力 部分大模型支持多模态输入,但没有专门的多模态情感识别模块 可以扩展语音情感识别(比如用Wav2Vec2)、图像情感识别(比如用ResNet+FER-2013)、生理信号情感识别(比如用心率变异性HRV)等多模态情感感知模块

举个简单的例子:如果用户连续三天都在深夜输入“我失眠了”,普通大模型的“共情话术”可能会连续三天说“抱抱你,失眠真的很难受,你可以试试数羊”;而具备情感智能的AI Agent会:

  1. 感知到:用户连续三天在深夜输入负面情绪的文本,情绪强度都是7/10左右;
  2. 理解到:用户可能有长期的失眠问题,深夜是用户的情绪低谷期;
  3. 决策到:不能再用“数羊”这种没用的固定话术了,应该推荐一些更专业的失眠缓解方法,或者询问用户是否需要推荐心理咨询师;
  4. 表达出:“宝贝,我发现你连续三天都在深夜失眠了——这真的太折磨人了😢。你有没有试过睡前做10分钟的正念冥想?或者要不要我帮你推荐一些附近的、口碑好的心理咨询师?💪”
  5. 记忆+推理:记录下“用户连续三天失眠”,并添加“明天晚上9:30提醒用户做正念冥想”的提醒任务。

这就是本质区别——普通大模型的“共情话术”是被动的、模仿式的、短期的,而具备情感智能的AI Agent是主动的、理解式的、长期的

2.2 核心概念2:情感的数学建模——维度模型 vs 离散模型

要让计算机“理解”情感,首先要把抽象的情感转化成计算机可以处理的数字——这就是情感的数学建模

目前主流的情感数学建模方法有两种:离散模型(Discrete Model)维度模型(Dimensional Model)

2.2.1 离散模型(Discrete Model)

离散模型的核心思想是:人类的情感可以分成几个有限的、基本的、不可再分的“基本情绪”(Basic Emotions),其他复杂的情绪都是由这些基本情绪组合而成的。

最著名的离散模型是美国心理学家保罗·艾克曼(Paul Ekman)在1972年提出的“6种基本情绪模型”

  1. 快乐(Happiness/Joy)
  2. 悲伤(Sadness)
  3. 愤怒(Anger)
  4. 恐惧(Fear)
  5. 厌恶(Disgust)
  6. 惊讶(Surprise)

后来艾克曼又在1999年扩展了这个模型,加入了**骄傲(Pride)、羞耻(Shame)、尴尬(Embarrassment)、兴奋(Excitement)、轻蔑(Contempt)**等情绪,但最常用的还是原来的6种。

离散模型的优点是简单易懂、直观,适合用于客服、心理陪伴、早教等需要明确识别用户基本情绪的场景;缺点是无法描述混合情绪(比如“悲喜交加”“又爱又恨”),也无法描述情绪的强度(比如“有点开心”和“非常开心”)。

2.2.2 维度模型(Dimensional Model)

维度模型的核心思想是:人类的情感是连续的,可以用几个独立的维度来描述,每个维度都有一个从负到正的数值范围。

最著名的维度模型是美国心理学家詹姆斯·拉塞尔(James Russell)在1980年提出的“二维情感 circumplex 模型(环形模型)”,也叫valence-arousal(效价-唤醒度)模型

  1. Valence(效价/愉悦度):描述情感的正负性,数值范围通常是[-1, 1]或[0, 10],-1(或0)表示极度不愉悦(比如极度悲伤、愤怒、恐惧),1(或10)表示极度愉悦(比如极度快乐、兴奋);
  2. Arousal(唤醒度/激活度):描述情感的强度或激动程度,数值范围通常也是[-1, 1]或[0, 10],-1(或0)表示极度平静(比如昏昏欲睡、无聊),1(或10)表示极度激动(比如极度愤怒、极度兴奋)。

拉塞尔的二维情感环形模型如下图所示(Mermaid架构图):

Valence-Arousal 二维情感环形模型

极度不愉悦
Valence=-1

中性
Valence=0

极度愉悦
Valence=1

极度平静
Arousal=-1

中性
Arousal=0

极度激动
Arousal=1

第一象限
Valence>0, Arousal>0
快乐、兴奋、狂喜

第二象限
Valence<0, Arousal>0
愤怒、恐惧、焦虑

第三象限
Valence<0, Arousal<0
悲伤、无聊、抑郁

第四象限
Valence>0, Arousal<0
平静、放松、满足

除了拉塞尔的二维模型,还有一些三维模型,比如梅拉比安(Mehrabian)在1974年提出的“PAD三维情感模型”,在valence-arousal的基础上加入了Dominance(支配度/控制度)

  • Dominance(支配度):描述情感的支配性或被动性,数值范围通常是[-1, 1]或[0, 10],-1(或0)表示极度被动(比如被欺负、无助),1(或10)表示极度支配(比如控制别人、自信)。

维度模型的优点是可以描述混合情绪(比如“悲喜交加”就是valence接近0,arousal很高),也可以描述情绪的强度(比如“有点开心”就是valence=0.3,arousal=0.2;“非常开心”就是valence=0.9,arousal=0.8);缺点是不够直观,不适合用于需要直接向用户展示情绪的场景(比如客服系统的后台监控界面)。

2.2.3 两种模型的结合使用

在实际的工程应用中,我们通常会结合使用离散模型和维度模型

  1. 先用维度模型识别用户的valence(效价)、arousal(唤醒度)、dominance(支配度),得到一个连续的数值向量;
  2. 再用K-Means聚类余弦相似度将这个数值向量映射到离散模型的基本情绪上;
  3. 最后同时保存维度模型的数值向量离散模型的基本情绪标签,以及情绪强度(可以用arousal的绝对值或者valence和arousal的欧氏距离来计算)。

这样结合使用的好处是:既可以利用维度模型的连续性和准确性,又可以利用离散模型的直观性和易用性

在今天的文章中,我们也会结合使用这两种模型——用Hugging Face上的EmoBank数据集预训练的维度模型识别用户的valence和arousal,再用余弦相似度将其映射到GoEmotions数据集的27种情绪标签(包括艾克曼的6种基本情绪和其他21种复杂情绪)上。

2.3 核心概念3:情感感知的输入模态——文本/语音/图像/生理信号

情感感知的输入模态(Input Modality)是指我们用来获取用户情感信息的数据源。目前主流的输入模态有四种:文本(Text)、语音(Speech)、图像/视频(Image/Video)、生理信号(Physiological Signals)

2.3.1 文本(Text)

文本是最常用、成本最低、技术最成熟的情感感知输入模态——我们只需要获取用户输入的文字(比如聊天记录、评论、邮件、工单),就可以用情感识别模型分析用户的情绪。

文本情感识别的核心技术是自然语言处理(NLP),具体包括:

  • 文本预处理:分词、去停用词、词干提取、词形还原;
  • 特征提取:词袋模型(Bag-of-Words)、TF-IDF、Word2Vec、GloVe、BERT等预训练语言模型;
  • 分类/回归:用SVM、Random Forest、XGBoost、LSTM、Transformer等模型进行离散情绪分类或维度情绪回归。

文本情感识别的优点是成本低、技术成熟、隐私性好(不需要获取用户的语音、图像或生理信号);缺点是信息密度低(无法获取用户的语气、语调、面部表情、肢体语言等情感信息),对于** sarcasm(讽刺)、隐喻**等复杂的语言现象识别准确率较低。

2.3.2 语音(Speech)

语音是信息密度较高的情感感知输入模态——除了文本信息(语音识别后的文字),我们还可以获取用户的语气、语调、语速、音量、停顿、重音副语言信息(Paralinguistic Information),这些信息对于情感识别非常重要。

语音情感识别的核心技术是语音信号处理自然语言处理,具体包括:

  • 语音信号预处理:去噪、分帧、加窗、特征提取(MFCC梅尔频率倒谱系数、Pitch基频、Formant共振峰、ZCR过零率等);
  • 语音识别(ASR):用Wav2Vec2、Whisper等模型将语音转化为文字;
  • 多模态融合:将语音信号的副语言特征和文本特征融合起来,进行情感识别。

语音情感识别的优点是信息密度高、识别准确率较高;缺点是成本较高(需要获取用户的语音权限),隐私性较差受环境噪音影响较大

2.3.3 图像/视频(Image/Video)

图像/视频是信息密度最高的情感感知输入模态——我们可以获取用户的面部表情、肢体语言、眼神、肤色变化视觉信息(Visual Information),这些信息是人类识别他人情绪的最主要来源(根据梅拉比安的“7-38-55定律”,人类沟通中,文字信息只占7%,副语言信息占38%,视觉信息占55%)。

图像/视频情感识别的核心技术是计算机视觉(CV),具体包括:

  • 人脸检测:用MTCNN、RetinaFace、YOLO等模型检测图像/视频中的人脸;
  • 人脸对齐:用Dlib、OpenFace等模型对齐人脸的关键点(比如眼睛、鼻子、嘴巴、眉毛);
  • 特征提取:用ResNet、VGG、FaceNet、Vision Transformer(ViT)等模型提取人脸的视觉特征;
  • 分类/回归:用SVM、Random Forest、XGBoost、CNN、Transformer等模型进行离散情绪分类或维度情绪回归。

图像/视频情感识别的优点是信息密度最高、识别准确率最高;缺点是成本最高(需要获取用户的摄像头权限),隐私性最差受光照、角度、遮挡影响较大

2.3.4 生理信号(Physiological Signals)

生理信号是最客观、最难以伪装的情感感知输入模态——我们可以获取用户的心率(HR)、心率变异性(HRV)、血压(BP)、皮肤电导率(EDA/GSR)、肌电图(EMG)、脑电图(EEG)生理信号,这些信号是由人体的自主神经系统(交感神经和副交感神经)控制的,不受主观意识的影响。

生理信号情感识别的核心技术是生物医学信号处理机器学习,具体包括:

  • 生理信号预处理:去噪、滤波、特征提取(比如HRV的时域特征、频域特征、非线性特征);
  • 分类/回归:用SVM、Random Forest、XGBoost、LSTM、Transformer等模型进行离散情绪分类或维度情绪回归。

生理信号情感识别的优点是最客观、最难以伪装;缺点是成本最高(需要专业的生理信号采集设备,比如智能手表、心电监护仪、脑电图仪),隐私性最差技术最不成熟(目前还处于实验室研究阶段,很少有大规模的商用应用)。

2.3.5 四种输入模态的对比

我们用一个Markdown表格来对比这四种输入模态的优缺点:

输入模态 信息密度 成本 隐私性 技术成熟度 受环境影响 适用场景
文本 极低 非常成熟 客服、心理陪伴、电商推荐、社交媒体分析
语音 中高 成熟 大(噪音) 客服、早教机器人、智能音箱
图像/视频 极高 较成熟 大(光照、角度、遮挡) 早教机器人、游戏、VR/AR、心理健康监测
生理信号 极高 极高 极低 不成熟(实验室阶段) 大(运动、情绪波动以外的生理变化) 专业心理健康监测、军事、航天

在今天的文章中,由于我们是在本地搭建一个简单的AI陪伴Agent,所以我们会选择成本最低、技术最成熟、隐私性最好的文本作为唯一的输入模态——但我会在后续的“边界与外延”章节中,简单介绍如何扩展语音和图像情感识别模块。

2.4 问题演变发展历史:Affective Computing 50年发展里程碑

最后,我们来简单了解一下情感智能(Affective Computing)的发展历史——这会帮助你更好地理解这个领域的发展脉络和未来趋势。

我整理了一个Affective Computing 50年发展里程碑的Markdown表格:

时间 事件 意义
1960s-1970s 保罗·艾克曼提出“6种基本情绪模型”;詹姆斯·拉塞尔提出“二维情感 circumplex 模型”;梅拉比安提出“PAD三维情感模型”;梅拉比安提出“7-38-55定律” 奠定了情感数学建模的理论基础
1980s-1990s 最早的文本情感识别研究出现(用WordNet和SVM);最早的语音情感识别研究出现(用MFCC和GMM);最早的面部表情识别研究出现(用Dlib和SVM) 情感计算技术开始萌芽
1995年 麻省理工学院(MIT)媒体实验室的罗莎琳德·皮卡德(Rosalind Picard)教授发表了著名的论文《Affective Computing》,并于1997年出版了同名书籍 正式提出了“Affective Computing(情感计算)”这个概念,标志着情感计算领域的诞生
2000s-2010s 大规模情感识别数据集发布(比如GoEmotions、EmoBank、IEMOCAP、FER-2013);深度学习开始应用于情感计算(比如用CNN做面部表情识别,用LSTM做文本情感识别);第一批商用情感计算产品出现(比如 Affectiva 的面部表情识别SDK,Nuance 的语音情感识别SDK) 情感计算技术开始快速发展,逐渐从实验室走向商用
2018年-至今 预训练语言模型(比如BERT、GPT、Llama)开始应用于文本情感识别,准确率大幅提升;多模态情感识别成为研究热点;大模型开始具备“模仿共情”的能力;具备全链路情感能力的AI Agent开始出现(比如Character.AI、Replika、Pi) 情感计算技术进入“大模型时代”,具备情感智能的AI Agent开始大规模商用

罗莎琳德·皮卡德教授被称为**“情感计算之母”**——她在1995年的论文中指出:“如果我们希望计算机真正地智能,那么它们必须能够识别、理解、表达和调节人类的情感。”这句话至今仍然是情感计算领域的核心目标。


(待续…)

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐