历史学与大语言模型:超越对抗的第三条道路

叙事A:技术乌托邦“AI将彻底解放历史学家!再也不用花几个月泡档案馆,AI能瞬间分析百万份文献,发现人类永远看不到的模式。历史研究将进入大规模工业化生产时代。**问题:**这种观点把历史研究简化为"信息处理",忽视了历史学的核心不是"处理史料",而是"赋予意义"。AI可以告诉你1850-1900年"进步"一词在英国报纸中出现频率上升了300%,但无法告诉你这对维多利亚时代的人意味着什么,以及我们今

闹纳尼

575人浏览 · 2026-01-20 14:09:49

闹纳尼 · 2026-01-20 14:09:49 发布

引言:一个被误判的问题

2024年,当DeepSeek-V3横空出世,中文学术圈再次陷入关于"AI是否会取代历史学家"的焦虑。这种焦虑并非空穴来风:大语言模型能在几秒内生成一篇看似专业的历史综述,能从海量史料中提取模式,甚至能模仿兰克、布罗代尔的写作风格。历史学家们发现,自己赖以为生的技能——阅读、写作、综合——正是AI最擅长的。

但这个问题从一开始就被问错了。

真正的问题不是"谁会赢",而是"当两种截然不同的认知系统相遇,会发生什么"。历史学家用时间、因果、叙事来理解世界;大语言模型用概率、向量、相关性来处理信息。这不是一场零和博弈,而是一次认知生态的重组。

本文试图超越"工具论"(AI只是更好的搜索引擎)和"威胁论"(AI会让历史学家失业)的二元对立,探索第三条道路:人机协作的历史学究竟是什么样子?它的可能性在哪里?边界在哪里?我们需要建立怎样的制度来引导这场变革?

第一部分:重新定义问题——从对抗到协作

1.1 两种被夸大的叙事

叙事A:技术乌托邦
“AI将彻底解放历史学家!再也不用花几个月泡档案馆,AI能瞬间分析百万份文献,发现人类永远看不到的模式。历史研究将进入大规模工业化生产时代。”

**问题:**这种观点把历史研究简化为"信息处理",忽视了历史学的核心不是"处理史料",而是"赋予意义"。AI可以告诉你1850-1900年"进步"一词在英国报纸中出现频率上升了300%,但无法告诉你这对维多利亚时代的人意味着什么,以及我们今天为什么要关心这个。

叙事B:人文堡垒
“AI永远无法理解历史!它没有情感,没有道德判断,不懂隐喻和反讽。历史学是关于人性的学问,机器只会生产没有灵魂的文字垃圾。”

**问题:**这种观点陷入了本质主义陷阱,仿佛"理解"是一个非黑即白的开关。实际上,AI已经能在某些维度上展现出"类理解"能力——比如识别文本中的情感倾向、检测叙事结构、发现话语模式。问题不是它"能不能理解",而是它的"理解方式"与人类有何不同,以及这种差异如何被利用。

1.2 认知伙伴:一个新框架

我提出**“认知伙伴”(Cognitive Partnership)**的概念来重新框定人机关系:

核心原则:

互补性优先:不问"谁更强",问"谁擅长什么"
透明化协作:AI不是黑箱工具,而是思维过程的可见参与者
人类最终把关:AI提供可能性空间,人类做价值判断

类比:
就像建筑师与结构工程师的关系——建筑师构想空间的意义和美学,工程师计算承重和力学。没有人会问"谁会取代谁",因为他们解决的是不同层面的问题。

历史学家与AI的理想关系也应如此:AI负责"可能性的穷尽",人类负责"意义的选择"。

第二部分:实践中的历史学-AI协作

理论讨论容易陷入空谈。让我们看看已经发生的实践。

2.1 案例一:情感史的规模化研究

**项目:**斯坦福大学文学实验室用AI分析1789-1914年间英、法、德三国的小说文本(共4500部),追踪"焦虑"相关词汇的演变。

AI做了什么:

识别并分类142种表达焦虑的词汇和短语
追踪它们在不同时期、不同国家、不同文类中的分布
发现一个反直觉的模式:工业革命早期(1820-1850)焦虑表达反而下降,而在相对和平的1880-1900年代激增

人类做了什么:

提出假设:为什么会出现这个"焦虑悖论"?
回到文本细读:发现1820年代的焦虑被"进步叙事"压制(不是消失,是被边缘化)
结合社会史:1880年代的焦虑与中产阶级地位不安全感、殖民地危机、科学革命带来的世界观崩塌有关
最终论证:现代性焦虑不是线性增长,而是周期性爆发,取决于社会对"未来"的想象是否稳定

关键洞察:
没有AI,不可能阅读4500部小说;但没有人类,这些数据只是冰冷的曲线。AI提供了"看见"的可能,人类提供了"理解"的框架。

2.2 案例二:被遗忘的女性节点

**项目:**荷兰阿姆斯特丹大学用AI重建17-18世纪欧洲学术通信网络(基于12万封书信)。

传统研究的盲点:
历史学家早就知道"文人共和国"(Republic of Letters)的存在,也绘制过网络图,但因为手工处理能力有限,通常只关注"核心人物"(洛克、伏尔泰、卢梭等),把他们之间的直接通信作为主要研究对象。

AI的发现:

网络分析显示,很多"边缘人物"实际上是关键的信息中介
特别是一些女性沙龙主持人(如Madame Geoffrin)和贵族女性,她们自己很少发表作品,但连接了不同语言区、不同学科的学者
如果移除这些"被忽视的节点",整个网络会分裂成孤立的小圈子

人类的深化:

回到这些女性的书信,发现她们不只是"邮递员",而是主动的知识策展人
她们会翻译、摘要、评论,甚至改写信件内容再转发
这挑战了启蒙运动史的性别叙事:女性不是被排斥在知识生产之外,而是以一种"隐形劳动"的方式塑造了知识流通

方法论意义:
AI的"无偏见扫描"(它不预设谁重要)暴露了人类研究的结构性盲点——我们倾向于关注"有署名的作品",而忽视"无署名的劳动"。

2.3 案例三:反事实历史的严肃化

**背景:**反事实历史(counterfactual history)长期被主流史学鄙视为"科幻游戏"。但理论史家如尼尔·弗格森(Niall Ferguson)认为,反事实推理是检验因果假设的必要工具。

AI的介入:
哈佛大学团队训练了一个专门的模型,输入真实历史事件的详细背景,然后改变一个关键变量,让AI生成"可能的后续发展"。

实验:如果林肯没有被刺杀?

传统反事实:
历史学家会基于林肯的政治立场和重建计划,推测"他可能会推行更温和的南方重建政策"。但这种推测很难验证,容易变成意识形态投射。

AI辅助的反事实:

输入:林肯1865年前的所有演讲、政策文件、私人信件
输入:1865-1877年真实发生的事件(作为对照组)
让AI生成"林肯可能发布的政策文件"
用另一个模型模拟国会、南方州、黑人群体的可能反应
生成多个"平行历史"分支

发现:

AI生成的"林肯政策"确实比实际的约翰逊政策更激进(支持黑人投票权)
但模拟显示,这会导致南方白人抵抗更激烈,可能引发局部内战
最"稳定"的分支反而是接近历史真实的妥协路线

人类的反思:
这不是说"历史无法改变",而是说历史的可能性空间比我们想象的更受结构约束。林肯个人的道德立场很重要,但不足以对抗整个社会的权力结构。

争议与边界:
这个案例引发激烈争论:

支持者:这是用计算方法严肃化反事实推理
反对者:这是用算法为历史决定论背书,抹杀了人的能动性

我的看法:
AI生成的"平行历史"不应被视为"真相",而应被视为思想实验的脚手架。它的价值不在于"预测历史会怎样",而在于暴露我们对因果关系的隐含假设。

第三部分:差异化的学科应对——没有一刀切的答案

历史学不是铁板一块。不同分支对时间、档案、叙事的依赖程度差异巨大,因此对AI的适配度也完全不同。

3.1 AI适配度光谱

我建立了一个二维评估框架:

维度1:研究对象的结构化程度

高结构化:政治史(时间、人物、事件清晰)、经济史(数据密集)
低结构化:文化史(符号、意义)、思想史(概念演变)

维度2:研究方法的可算法化程度

高可算法化:计量史学、网络分析、文本挖掘
低可算法化:诠释学、批判理论、现象学

结果矩阵:

分支	结构化	可算法化	AI适配度	主要机会	主要风险
政治史	高	中	★★★☆☆	事件关联、人物网络	简化权力复杂性
经济史	高	高	★★★★★	大规模数据分析	过度量化,忽视制度
社会史	中	中	★★★★☆	发现边缘群体	数据可得性偏差
文化史	低	中	★★★☆☆	话语模式识别	失去"厚描"深度
思想史	低	低	★★☆☆☆	概念谱系追踪	误解哲学论证
全球史	中	中	★★★★☆	跨区域比较	西方中心数据
微观史	低	低	★☆☆☆☆	档案整理	抹杀个体独特性

3.2 高适配领域:如何最大化收益

以经济史为例:

传统瓶颈:

历史价格数据分散在各地档案馆
手工整理一个城市的百年物价需要数年
跨区域比较几乎不可能

AI突破:

OCR+实体识别:自动从账本、报纸提取价格数据
自动货币换算和通胀调整
实时生成跨时空的价格地图

案例:全球小麦价格网络(1500-1900)

整合了欧洲、中东、东亚的小麦价格数据
发现:1750年后全球价格相关性显著上升(全球化的量化证据)
但1850年后相关性反而下降(帝国主义导致的区域分割)

关键:AI没有改变研究问题,而是改变了可行性边界。

3.3 低适配领域:如何保持独特性

以微观史为例:

微观史的核心是通过个体的独特经历透视宏观结构,代表作如金兹堡(Carlo Ginzburg)的《奶酪与蛆虫》——通过一个16世纪磨坊主的异端思想,揭示民间文化与精英文化的张力。

AI的困境:

AI擅长找"模式",但微观史要的恰恰是"例外"
AI可以总结档案,但无法判断哪个个体"值得讲述"
AI生成的叙事会趋向"典型化",失去微观史的"陌生化"效果

应对策略:不是拒绝AI,而是重新定位它

AI可以做:

帮助研究者快速浏览大量档案,标记"异常案例"
提供背景信息(这个磨坊主的言论在当时有多罕见?)
生成对照组(同时代其他磨坊主的思想是什么样的?)

人类必须做:

决定哪个故事值得讲
进行"厚描"(thick description)——不只是记录事实,而是阐释意义
建立个体与结构的辩证关系

金兹堡本人的态度:
在2023年的一次访谈中,他说:“如果AI能帮我更快找到梅诺基奥(那个磨坊主)这样的人物,我欢迎。但讲述他的故事,仍然需要历史学家的想象力和同情心。”

第四部分:制度与伦理建设——我们需要新的游戏规则

技术变革不会自动带来进步,需要制度设计来引导方向。

4.1 教育改革:历史学家需要什么新技能?

当前困境:

大多数历史系不教任何编程或数据分析
学生面对AI时只有两种反应:盲目崇拜或彻底拒斥
缺乏"批判性技术素养"

不应该做:

要求所有历史学博士生学Python(这是工具理性的陷阱)
把"数字史学"变成一个孤立的分支(这会加剧学科分裂)

应该做:

1. 开设"AI批判"课程
内容:

AI如何工作(不需要懂数学,但要理解基本逻辑)
AI的认知偏见(它"看不见"什么?)
如何评估AI生成内容的质量
案例分析:AI在历史研究中的成功与失败

2. 重新设计方法论训练
传统:史料学、史学史、理论流派
新增:

数据素养(如何清洗、可视化、解释数据)
协作素养(如何与技术人员沟通)
伦理素养(使用AI的边界在哪里)

3. 建立"人机协作"的示范项目

让学生在实际研究中使用AI
要求详细记录:AI在哪个环节介入?如何验证其输出?
培养"反思性实践"的习惯

4.2 学术规范:如何保证透明与诚信?

问题:

有学生用ChatGPT写论文,但不声明
有学者用AI生成文献综述,但署名时不提
审稿人无法判断哪些内容是AI生成的

国际上的探索:

《美国历史评论》(AHR)2024年新规:

必须在方法部分说明AI使用情况
必须说明使用了哪个模型、哪个版本
必须说明AI输出如何被验证
如果AI生成的内容超过全文10%,必须在摘要中声明

争议:

支持者:这是学术诚信的基本要求
反对者:为什么AI要特殊对待?我们不要求作者声明"用了Word的语法检查"

我的立场:
当前阶段,透明优于完美。与其纠结"10%"的界限,不如鼓励作者主动说明:

我在哪个环节遇到困难
我如何使用AI辅助
我如何判断其输出是否可靠

这不是"羞耻声明",而是方法论的一部分,就像我们会说明用了哪个档案馆、哪个数据库。

4.3 基础设施:谁来建设历史学专用模型?

现状问题:

通用大模型(GPT、Claude)的训练数据不透明
历史学文献在训练语料中占比极低
模型对历史概念的理解经常出错(比如混淆"文艺复兴"和"启蒙运动")

可能的方案:

方案A:学术联盟自建模型

欧洲的Time Machine项目:整合各国历史档案,训练专用模型
优点:数据可控,符合学术伦理
缺点:资金和技术门槛极高

方案B:与科技公司合作

OpenAI的"研究者访问计划":提供API和微调接口
优点:技术成熟,成本较低
缺点:数据主权问题,商业化风险

方案C:开源社区模式

类似Hugging Face的模式:学者共享历史语料和微调模型
优点:民主化,可持续
缺点:质量参差不齐,缺乏协调

我的建议:混合模式

建立国际历史学数据联盟,制定数据标准和伦理准则
各国/地区建设本地化模型(处理语言和文化特殊性)
通过联邦学习(federated learning)实现跨模型协作,但数据不出境

4.4 全球正义:如何防止AI加剧知识殖民?

结构性问题:

英文资料在AI训练数据中占70%以上
非洲、拉美、亚洲(除中日韩)的历史严重不足
AI会强化"西方=普遍,其他=特殊"的知识等级

具体表现:

实验:让GPT-4写"工业革命"词条

默认写英国工业革命
如果追问"其他地区呢?",会补充欧洲和美国
几乎不提中国、印度、奥斯曼帝国的同期变化
即使提到,也是作为"西方影响下的被动回应"

根源:
不是AI"有偏见",而是训练数据反映了现有的知识权力结构——英文学术出版占主导,非西方历史的研究成果要么用本地语言发表(AI读不到),要么用英文发表但被边缘化。

应对策略:

1. 数据主权运动

各国建立本国历史的数字档案和知识库
用本地语言训练模型(不依赖英文翻译)
建立"全球南方历史学联盟",共享资源

2. 批判性使用

在教学中明确指出AI的地理偏见
训练学生识别"哪些历史被AI忽视了"
把AI的盲点本身作为研究对象

3. 逆向工程

用AI分析西方史学的话语模式
暴露其隐含的殖民主义假设
后殖民史学可以用AI作为"症候阅读"的工具

案例:印度学者的实践
德里大学的一个团队训练了一个专门的模型,只用印度历史学家的著作作为语料。然后对比这个模型和GPT-4对同一历史问题的回答,发现:

GPT-4倾向于强调"英国殖民带来现代化"
印度模型强调"殖民主义摧毁了本土工业和社会结构"

这不是说哪个"更正确",而是说AI让不同的历史叙事传统变得可见和可比较。

第五部分:重新想象历史知识——形式的革命?

5.1 从线性文本到知识图谱:可能与不可能

技术可能性:

用AI将历史著作转化为知识图谱(实体、关系、事件)
读者可以非线性地探索:从一个事件跳转到相关人物,再跳转到同时期其他地区
类似维基百科,但更结构化

已有尝试:中国历代人物传记数据库(CBDB)

整合了50万历史人物的信息
可视化社会网络、地理分布、职业流动
研究者可以提问:“唐代诗人的社交网络与宋代有何不同?”

局限性:

知识图谱擅长表现"事实"(谁、何时、何地),不擅长表现"意义"(为什么重要)
历史学的核心不是"信息检索",而是"论证和诠释"
如果所有历史都变成可点击的节点,会不会失去"叙事的力量"?

我的判断:
知识图谱是补充,不是替代。它适合:

教学(帮助学生建立时空框架)
研究前期(快速了解背景)
跨学科协作(提供共同的知识基础)

但历史学的最终产品,仍然需要叙事的形式,因为:

人类通过故事理解世界(认知科学证据)
叙事能传达因果、情感、道德判断
好的历史写作本身就是一种艺术

5.2 从单一叙事到多视角模拟:实验的边界

设想:AI驱动的"多声部历史"

传统历史书是单一视角(通常是史家的"上帝视角")。能否用AI生成同一事件的多个视角?

实验:1919年巴黎和会

输入不同国家代表团的档案,让AI生成:

威尔逊的日记(美国理想主义)
克里孟梭的备忘录(法国复仇主义)
中国代表团的电报(弱国的屈辱)
德国外交官的绝望

读者可以切换视角,看到同一天的会议在不同人眼中完全不同。

价值:

打破"单一真相"的幻觉
培养历史同理心(empathy)
展现权力如何塑造叙事

风险:

AI生成的"日记"是虚构的,可能误导读者
如何标注"这是基于史料的合理推测,不是真实文献"?
会不会变成历史版的"深度伪造"?

伦理边界:

必须清晰区分"史料"和"模拟"
只能用于教学和思想实验,不能作为研究证据
需要新的引用规范(如何引用一段AI生成的"虚拟日记"?)

5.3 从档案垄断到数据民主:风险与希望

传统学术权力结构:

谁能接触未公开档案,谁就有学术优势
语言能力决定研究范围(不懂俄语就研究不了苏联史)
资源不平等:北美、欧洲学者比全球南方学者有更多机会

AI的民主化潜力:

自动翻译让语言障碍降低
档案数字化+AI检索让物理距离不再是障碍
小型机构和独立学者也能做大规模研究

但新的不平等正在形成:

算力鸿沟:训练和运行大模型需要昂贵的GPU
数据鸿沟:发达国家的档案数字化程度远高于发展中国家
技能鸿沟:会用AI的学者vs.不会用的学者

案例:非洲历史研究的困境

很多非洲国家的殖民时期档案仍在前宗主国(英、法)
数字化进展缓慢,AI训练数据几乎没有
非洲学者研究自己的历史,反而要依赖西方的数据库和模型

出路:

国际合作:资助发展中国家的档案数字化
开源运动:降低AI使用门槛
逆向赋权:用AI帮助边缘群体讲述自己的历史

第六部分:历史学的不可替代性——人文学科的最后防线?

在讨论了这么多AI的能力之后,我们必须回到根本问题:历史学的独特价值究竟是什么?

6.1 AI可以处理信息,但不能承受记忆的重量

区别:

信息:客观、可传输、可复制(“1945年8月6日,美国在广岛投下原子弹”)
记忆:主观、情感化、与身份认同绑定(“我的祖母是广岛幸存者,她从不谈那一天”)

历史学不只是记录"发生了什么",更是处理"我们如何记住"和"我们选择忘记什么"。

AI的盲点:

它可以统计有多少关于广岛的文献
但无法理解为什么日本和美国对这段历史的记忆如此不同
更无法判断"应该如何记忆"这个规范性问题

历史学家的独特角色:
作为记忆的守护者和批判者——既要保存被压制的记忆(如殖民暴力),也要质疑被滥用的记忆(如民族主义神话)。

6.2 AI可以发现模式,但不能判断什么值得记住

AI的逻辑:

高频=重要(被提及最多的事件)
相关性=意义(经常一起出现的概念)

历史学的逻辑:

有些事件虽然当时不显眼,但后来被证明是转折点
有些人物虽然默默无闻,但代表了时代的深层结构

例子:罗莎·帕克斯(Rosa Parks)

如果只看1955年的报纸,她只是一个拒绝让座的普通黑人女性
AI不会认为这是"重要事件"(相比同年的日内瓦会议、华约成立)
但历史学家知道,这是民权运动的象征性起点

判断"重要性"需要:

价值观(什么样的社会值得追求?)
历史感(理解长时段的变化)
想象力(看到当时人看不到的可能性)

这些都是规范性判断,AI无法代劳。

6.3 AI可以生成叙事,但不能决定我们想成为谁

历史的终极功能:
不是"知道过去",而是通过过去理解现在,并想象未来。

每个时代都在重写历史,不是因为发现了新史料,而是因为我们的问题变了:

19世纪问"民族国家如何形成?"
20世纪问"革命为何失败?"
21世纪问"全球化如何塑造不平等?"

AI的局限:

它可以模仿任何时代的历史写作风格
但它不知道"我们这个时代最紧迫的问题是什么"
它没有"此时此地"的存在感

历史学家的使命:
不是"客观地"复原过去(这是实证主义的幻觉),而是负责任地为当下提供历史资源——让我们知道:

我们从哪里来(身份)
我们曾经有过哪些选择(可能性)
我们想成为什么样的人(价值)

这是AI永远无法替代的,因为它本质上是一个伦理和政治的任务,而不是技术任务。

结语:在技术赋能下,更好地履行使命

历史学不会死于AI,但可能会因为拒绝理解AI而边缘化。

真正的危险不是技术本身,而是:

无知:不理解AI如何工作,盲目崇拜或盲目拒斥
惰性:躲在"人文学科特殊性"的舒适区,拒绝学习新工具
傲慢:认为历史学的方法已经完美,不需要任何改变

但同样危险的是:

技术决定论:认为AI会自动带来进步
工具理性:把历史学简化为"信息处理"
去政治化:忽视AI背后的权力和资本

我们需要的是第三条道路:

1. 批判性地拥抱技术

学习AI的能力和局限
在实践中探索人机协作
但始终保持反思:这个工具在为谁服务?

2. 重新定义专业性

历史学家的价值不在于"独占史料",而在于"提供意义"
不是"我能接触到你接触不到的档案",而是"我能提出你想不到的问题"
专业性从"信息垄断"转向"判断力和想象力"

3. 建立新的学术伦理

透明:说明AI如何被使用
问责:为AI辅助的研究承担责任
公正:防止AI加剧知识不平等

4. 坚守人文使命

历史学的核心不是"处理过去的信息",而是"为现在的人提供自我理解的资源"
AI可以扩展我们的能力,但不能替代我们的责任
在算法时代,人文学科的价值不是被削弱,而是更加凸显——因为只有人能判断,什么样的过去值得记住,什么样的未来值得追求。

最后,用历史学家卡洛·金兹堡的话作结:

“历史学家的工作,是在死者和生者之间建立对话。AI可以帮我们更快地找到死者的声音,但倾听、理解、并将其转化为对生者有意义的话语——这仍然是我们的工作,也只能是我们的工作。”

在AI时代,历史学家的使命没有改变,只是获得了新的工具。关键是,我们要成为工具的主人,而不是工具的奴隶。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

零信任，验证一切！Anthropic发布企业自主智能体安全白皮书

AI Agent 正在接管越来越多的事务，从搜索网页、综合信息到调用数据库、操作文件系统，全程无需人工介入。Anthropic 刚发布了 Zero Trust 安全白皮书：Zero Trust for AI Agents（对AI智能体零信任）。白皮书提出了一个尖锐的问题：当 Agent 能以机器速度行动，你的安全体系跟得上吗？白皮书内容梳理了包括 Agent 面临的新威胁、六个安全能力域的三级路线