历史学与大语言模型:超越对抗的第三条道路
叙事A:技术乌托邦“AI将彻底解放历史学家!再也不用花几个月泡档案馆,AI能瞬间分析百万份文献,发现人类永远看不到的模式。历史研究将进入大规模工业化生产时代。**问题:**这种观点把历史研究简化为"信息处理",忽视了历史学的核心不是"处理史料",而是"赋予意义"。AI可以告诉你1850-1900年"进步"一词在英国报纸中出现频率上升了300%,但无法告诉你这对维多利亚时代的人意味着什么,以及我们今
引言:一个被误判的问题
2024年,当DeepSeek-V3横空出世,中文学术圈再次陷入关于"AI是否会取代历史学家"的焦虑。这种焦虑并非空穴来风:大语言模型能在几秒内生成一篇看似专业的历史综述,能从海量史料中提取模式,甚至能模仿兰克、布罗代尔的写作风格。历史学家们发现,自己赖以为生的技能——阅读、写作、综合——正是AI最擅长的。
但这个问题从一开始就被问错了。
真正的问题不是"谁会赢",而是"当两种截然不同的认知系统相遇,会发生什么"。历史学家用时间、因果、叙事来理解世界;大语言模型用概率、向量、相关性来处理信息。这不是一场零和博弈,而是一次认知生态的重组。
本文试图超越"工具论"(AI只是更好的搜索引擎)和"威胁论"(AI会让历史学家失业)的二元对立,探索第三条道路:人机协作的历史学究竟是什么样子?它的可能性在哪里?边界在哪里?我们需要建立怎样的制度来引导这场变革?
第一部分:重新定义问题——从对抗到协作
1.1 两种被夸大的叙事
叙事A:技术乌托邦
“AI将彻底解放历史学家!再也不用花几个月泡档案馆,AI能瞬间分析百万份文献,发现人类永远看不到的模式。历史研究将进入大规模工业化生产时代。”
**问题:**这种观点把历史研究简化为"信息处理",忽视了历史学的核心不是"处理史料",而是"赋予意义"。AI可以告诉你1850-1900年"进步"一词在英国报纸中出现频率上升了300%,但无法告诉你这对维多利亚时代的人意味着什么,以及我们今天为什么要关心这个。
叙事B:人文堡垒
“AI永远无法理解历史!它没有情感,没有道德判断,不懂隐喻和反讽。历史学是关于人性的学问,机器只会生产没有灵魂的文字垃圾。”
**问题:**这种观点陷入了本质主义陷阱,仿佛"理解"是一个非黑即白的开关。实际上,AI已经能在某些维度上展现出"类理解"能力——比如识别文本中的情感倾向、检测叙事结构、发现话语模式。问题不是它"能不能理解",而是它的"理解方式"与人类有何不同,以及这种差异如何被利用。
1.2 认知伙伴:一个新框架
我提出**“认知伙伴”(Cognitive Partnership)**的概念来重新框定人机关系:
核心原则:
- 互补性优先:不问"谁更强",问"谁擅长什么"
- 透明化协作:AI不是黑箱工具,而是思维过程的可见参与者
- 人类最终把关:AI提供可能性空间,人类做价值判断
类比:
就像建筑师与结构工程师的关系——建筑师构想空间的意义和美学,工程师计算承重和力学。没有人会问"谁会取代谁",因为他们解决的是不同层面的问题。
历史学家与AI的理想关系也应如此:AI负责"可能性的穷尽",人类负责"意义的选择"。
第二部分:实践中的历史学-AI协作
理论讨论容易陷入空谈。让我们看看已经发生的实践。
2.1 案例一:情感史的规模化研究
**项目:**斯坦福大学文学实验室用AI分析1789-1914年间英、法、德三国的小说文本(共4500部),追踪"焦虑"相关词汇的演变。
AI做了什么:
- 识别并分类142种表达焦虑的词汇和短语
- 追踪它们在不同时期、不同国家、不同文类中的分布
- 发现一个反直觉的模式:工业革命早期(1820-1850)焦虑表达反而下降,而在相对和平的1880-1900年代激增
人类做了什么:
- 提出假设:为什么会出现这个"焦虑悖论"?
- 回到文本细读:发现1820年代的焦虑被"进步叙事"压制(不是消失,是被边缘化)
- 结合社会史:1880年代的焦虑与中产阶级地位不安全感、殖民地危机、科学革命带来的世界观崩塌有关
- 最终论证:现代性焦虑不是线性增长,而是周期性爆发,取决于社会对"未来"的想象是否稳定
关键洞察:
没有AI,不可能阅读4500部小说;但没有人类,这些数据只是冰冷的曲线。AI提供了"看见"的可能,人类提供了"理解"的框架。
2.2 案例二:被遗忘的女性节点
**项目:**荷兰阿姆斯特丹大学用AI重建17-18世纪欧洲学术通信网络(基于12万封书信)。
传统研究的盲点:
历史学家早就知道"文人共和国"(Republic of Letters)的存在,也绘制过网络图,但因为手工处理能力有限,通常只关注"核心人物"(洛克、伏尔泰、卢梭等),把他们之间的直接通信作为主要研究对象。
AI的发现:
- 网络分析显示,很多"边缘人物"实际上是关键的信息中介
- 特别是一些女性沙龙主持人(如Madame Geoffrin)和贵族女性,她们自己很少发表作品,但连接了不同语言区、不同学科的学者
- 如果移除这些"被忽视的节点",整个网络会分裂成孤立的小圈子
人类的深化:
- 回到这些女性的书信,发现她们不只是"邮递员",而是主动的知识策展人
- 她们会翻译、摘要、评论,甚至改写信件内容再转发
- 这挑战了启蒙运动史的性别叙事:女性不是被排斥在知识生产之外,而是以一种"隐形劳动"的方式塑造了知识流通
方法论意义:
AI的"无偏见扫描"(它不预设谁重要)暴露了人类研究的结构性盲点——我们倾向于关注"有署名的作品",而忽视"无署名的劳动"。
2.3 案例三:反事实历史的严肃化
**背景:**反事实历史(counterfactual history)长期被主流史学鄙视为"科幻游戏"。但理论史家如尼尔·弗格森(Niall Ferguson)认为,反事实推理是检验因果假设的必要工具。
AI的介入:
哈佛大学团队训练了一个专门的模型,输入真实历史事件的详细背景,然后改变一个关键变量,让AI生成"可能的后续发展"。
实验:如果林肯没有被刺杀?
传统反事实:
历史学家会基于林肯的政治立场和重建计划,推测"他可能会推行更温和的南方重建政策"。但这种推测很难验证,容易变成意识形态投射。
AI辅助的反事实:
- 输入:林肯1865年前的所有演讲、政策文件、私人信件
- 输入:1865-1877年真实发生的事件(作为对照组)
- 让AI生成"林肯可能发布的政策文件"
- 用另一个模型模拟国会、南方州、黑人群体的可能反应
- 生成多个"平行历史"分支
发现:
- AI生成的"林肯政策"确实比实际的约翰逊政策更激进(支持黑人投票权)
- 但模拟显示,这会导致南方白人抵抗更激烈,可能引发局部内战
- 最"稳定"的分支反而是接近历史真实的妥协路线
人类的反思:
这不是说"历史无法改变",而是说历史的可能性空间比我们想象的更受结构约束。林肯个人的道德立场很重要,但不足以对抗整个社会的权力结构。
争议与边界:
这个案例引发激烈争论:
- 支持者:这是用计算方法严肃化反事实推理
- 反对者:这是用算法为历史决定论背书,抹杀了人的能动性
我的看法:
AI生成的"平行历史"不应被视为"真相",而应被视为思想实验的脚手架。它的价值不在于"预测历史会怎样",而在于暴露我们对因果关系的隐含假设。
第三部分:差异化的学科应对——没有一刀切的答案
历史学不是铁板一块。不同分支对时间、档案、叙事的依赖程度差异巨大,因此对AI的适配度也完全不同。
3.1 AI适配度光谱
我建立了一个二维评估框架:
维度1:研究对象的结构化程度
- 高结构化:政治史(时间、人物、事件清晰)、经济史(数据密集)
- 低结构化:文化史(符号、意义)、思想史(概念演变)
维度2:研究方法的可算法化程度
- 高可算法化:计量史学、网络分析、文本挖掘
- 低可算法化:诠释学、批判理论、现象学
结果矩阵:
| 分支 | 结构化 | 可算法化 | AI适配度 | 主要机会 | 主要风险 |
|---|---|---|---|---|---|
| 政治史 | 高 | 中 | ★★★☆☆ | 事件关联、人物网络 | 简化权力复杂性 |
| 经济史 | 高 | 高 | ★★★★★ | 大规模数据分析 | 过度量化,忽视制度 |
| 社会史 | 中 | 中 | ★★★★☆ | 发现边缘群体 | 数据可得性偏差 |
| 文化史 | 低 | 中 | ★★★☆☆ | 话语模式识别 | 失去"厚描"深度 |
| 思想史 | 低 | 低 | ★★☆☆☆ | 概念谱系追踪 | 误解哲学论证 |
| 全球史 | 中 | 中 | ★★★★☆ | 跨区域比较 | 西方中心数据 |
| 微观史 | 低 | 低 | ★☆☆☆☆ | 档案整理 | 抹杀个体独特性 |
3.2 高适配领域:如何最大化收益
以经济史为例:
传统瓶颈:
- 历史价格数据分散在各地档案馆
- 手工整理一个城市的百年物价需要数年
- 跨区域比较几乎不可能
AI突破:
- OCR+实体识别:自动从账本、报纸提取价格数据
- 自动货币换算和通胀调整
- 实时生成跨时空的价格地图
案例:全球小麦价格网络(1500-1900)
- 整合了欧洲、中东、东亚的小麦价格数据
- 发现:1750年后全球价格相关性显著上升(全球化的量化证据)
- 但1850年后相关性反而下降(帝国主义导致的区域分割)
关键:AI没有改变研究问题,而是改变了可行性边界。
3.3 低适配领域:如何保持独特性
以微观史为例:
微观史的核心是通过个体的独特经历透视宏观结构,代表作如金兹堡(Carlo Ginzburg)的《奶酪与蛆虫》——通过一个16世纪磨坊主的异端思想,揭示民间文化与精英文化的张力。
AI的困境:
- AI擅长找"模式",但微观史要的恰恰是"例外"
- AI可以总结档案,但无法判断哪个个体"值得讲述"
- AI生成的叙事会趋向"典型化",失去微观史的"陌生化"效果
应对策略:不是拒绝AI,而是重新定位它
AI可以做:
- 帮助研究者快速浏览大量档案,标记"异常案例"
- 提供背景信息(这个磨坊主的言论在当时有多罕见?)
- 生成对照组(同时代其他磨坊主的思想是什么样的?)
人类必须做:
- 决定哪个故事值得讲
- 进行"厚描"(thick description)——不只是记录事实,而是阐释意义
- 建立个体与结构的辩证关系
金兹堡本人的态度:
在2023年的一次访谈中,他说:“如果AI能帮我更快找到梅诺基奥(那个磨坊主)这样的人物,我欢迎。但讲述他的故事,仍然需要历史学家的想象力和同情心。”
第四部分:制度与伦理建设——我们需要新的游戏规则
技术变革不会自动带来进步,需要制度设计来引导方向。
4.1 教育改革:历史学家需要什么新技能?
当前困境:
- 大多数历史系不教任何编程或数据分析
- 学生面对AI时只有两种反应:盲目崇拜或彻底拒斥
- 缺乏"批判性技术素养"
不应该做:
- 要求所有历史学博士生学Python(这是工具理性的陷阱)
- 把"数字史学"变成一个孤立的分支(这会加剧学科分裂)
应该做:
1. 开设"AI批判"课程
内容:
- AI如何工作(不需要懂数学,但要理解基本逻辑)
- AI的认知偏见(它"看不见"什么?)
- 如何评估AI生成内容的质量
- 案例分析:AI在历史研究中的成功与失败
2. 重新设计方法论训练
传统:史料学、史学史、理论流派
新增:
- 数据素养(如何清洗、可视化、解释数据)
- 协作素养(如何与技术人员沟通)
- 伦理素养(使用AI的边界在哪里)
3. 建立"人机协作"的示范项目
- 让学生在实际研究中使用AI
- 要求详细记录:AI在哪个环节介入?如何验证其输出?
- 培养"反思性实践"的习惯
4.2 学术规范:如何保证透明与诚信?
问题:
- 有学生用ChatGPT写论文,但不声明
- 有学者用AI生成文献综述,但署名时不提
- 审稿人无法判断哪些内容是AI生成的
国际上的探索:
《美国历史评论》(AHR)2024年新规:
- 必须在方法部分说明AI使用情况
- 必须说明使用了哪个模型、哪个版本
- 必须说明AI输出如何被验证
- 如果AI生成的内容超过全文10%,必须在摘要中声明
争议:
- 支持者:这是学术诚信的基本要求
- 反对者:为什么AI要特殊对待?我们不要求作者声明"用了Word的语法检查"
我的立场:
当前阶段,透明优于完美。与其纠结"10%"的界限,不如鼓励作者主动说明:
- 我在哪个环节遇到困难
- 我如何使用AI辅助
- 我如何判断其输出是否可靠
这不是"羞耻声明",而是方法论的一部分,就像我们会说明用了哪个档案馆、哪个数据库。
4.3 基础设施:谁来建设历史学专用模型?
现状问题:
- 通用大模型(GPT、Claude)的训练数据不透明
- 历史学文献在训练语料中占比极低
- 模型对历史概念的理解经常出错(比如混淆"文艺复兴"和"启蒙运动")
可能的方案:
方案A:学术联盟自建模型
- 欧洲的Time Machine项目:整合各国历史档案,训练专用模型
- 优点:数据可控,符合学术伦理
- 缺点:资金和技术门槛极高
方案B:与科技公司合作
- OpenAI的"研究者访问计划":提供API和微调接口
- 优点:技术成熟,成本较低
- 缺点:数据主权问题,商业化风险
方案C:开源社区模式
- 类似Hugging Face的模式:学者共享历史语料和微调模型
- 优点:民主化,可持续
- 缺点:质量参差不齐,缺乏协调
我的建议:混合模式
- 建立国际历史学数据联盟,制定数据标准和伦理准则
- 各国/地区建设本地化模型(处理语言和文化特殊性)
- 通过联邦学习(federated learning)实现跨模型协作,但数据不出境
4.4 全球正义:如何防止AI加剧知识殖民?
结构性问题:
- 英文资料在AI训练数据中占70%以上
- 非洲、拉美、亚洲(除中日韩)的历史严重不足
- AI会强化"西方=普遍,其他=特殊"的知识等级
具体表现:
实验:让GPT-4写"工业革命"词条
- 默认写英国工业革命
- 如果追问"其他地区呢?",会补充欧洲和美国
- 几乎不提中国、印度、奥斯曼帝国的同期变化
- 即使提到,也是作为"西方影响下的被动回应"
根源:
不是AI"有偏见",而是训练数据反映了现有的知识权力结构——英文学术出版占主导,非西方历史的研究成果要么用本地语言发表(AI读不到),要么用英文发表但被边缘化。
应对策略:
1. 数据主权运动
- 各国建立本国历史的数字档案和知识库
- 用本地语言训练模型(不依赖英文翻译)
- 建立"全球南方历史学联盟",共享资源
2. 批判性使用
- 在教学中明确指出AI的地理偏见
- 训练学生识别"哪些历史被AI忽视了"
- 把AI的盲点本身作为研究对象
3. 逆向工程
- 用AI分析西方史学的话语模式
- 暴露其隐含的殖民主义假设
- 后殖民史学可以用AI作为"症候阅读"的工具
案例:印度学者的实践
德里大学的一个团队训练了一个专门的模型,只用印度历史学家的著作作为语料。然后对比这个模型和GPT-4对同一历史问题的回答,发现:
- GPT-4倾向于强调"英国殖民带来现代化"
- 印度模型强调"殖民主义摧毁了本土工业和社会结构"
这不是说哪个"更正确",而是说AI让不同的历史叙事传统变得可见和可比较。
第五部分:重新想象历史知识——形式的革命?
5.1 从线性文本到知识图谱:可能与不可能
技术可能性:
- 用AI将历史著作转化为知识图谱(实体、关系、事件)
- 读者可以非线性地探索:从一个事件跳转到相关人物,再跳转到同时期其他地区
- 类似维基百科,但更结构化
已有尝试:中国历代人物传记数据库(CBDB)
- 整合了50万历史人物的信息
- 可视化社会网络、地理分布、职业流动
- 研究者可以提问:“唐代诗人的社交网络与宋代有何不同?”
局限性:
- 知识图谱擅长表现"事实"(谁、何时、何地),不擅长表现"意义"(为什么重要)
- 历史学的核心不是"信息检索",而是"论证和诠释"
- 如果所有历史都变成可点击的节点,会不会失去"叙事的力量"?
我的判断:
知识图谱是补充,不是替代。它适合:
- 教学(帮助学生建立时空框架)
- 研究前期(快速了解背景)
- 跨学科协作(提供共同的知识基础)
但历史学的最终产品,仍然需要叙事的形式,因为:
- 人类通过故事理解世界(认知科学证据)
- 叙事能传达因果、情感、道德判断
- 好的历史写作本身就是一种艺术
5.2 从单一叙事到多视角模拟:实验的边界
设想:AI驱动的"多声部历史"
传统历史书是单一视角(通常是史家的"上帝视角")。能否用AI生成同一事件的多个视角?
实验:1919年巴黎和会
输入不同国家代表团的档案,让AI生成:
- 威尔逊的日记(美国理想主义)
- 克里孟梭的备忘录(法国复仇主义)
- 中国代表团的电报(弱国的屈辱)
- 德国外交官的绝望
读者可以切换视角,看到同一天的会议在不同人眼中完全不同。
价值:
- 打破"单一真相"的幻觉
- 培养历史同理心(empathy)
- 展现权力如何塑造叙事
风险:
- AI生成的"日记"是虚构的,可能误导读者
- 如何标注"这是基于史料的合理推测,不是真实文献"?
- 会不会变成历史版的"深度伪造"?
伦理边界:
- 必须清晰区分"史料"和"模拟"
- 只能用于教学和思想实验,不能作为研究证据
- 需要新的引用规范(如何引用一段AI生成的"虚拟日记"?)
5.3 从档案垄断到数据民主:风险与希望
传统学术权力结构:
- 谁能接触未公开档案,谁就有学术优势
- 语言能力决定研究范围(不懂俄语就研究不了苏联史)
- 资源不平等:北美、欧洲学者比全球南方学者有更多机会
AI的民主化潜力:
- 自动翻译让语言障碍降低
- 档案数字化+AI检索让物理距离不再是障碍
- 小型机构和独立学者也能做大规模研究
但新的不平等正在形成:
- 算力鸿沟:训练和运行大模型需要昂贵的GPU
- 数据鸿沟:发达国家的档案数字化程度远高于发展中国家
- 技能鸿沟:会用AI的学者vs.不会用的学者
案例:非洲历史研究的困境
- 很多非洲国家的殖民时期档案仍在前宗主国(英、法)
- 数字化进展缓慢,AI训练数据几乎没有
- 非洲学者研究自己的历史,反而要依赖西方的数据库和模型
出路:
- 国际合作:资助发展中国家的档案数字化
- 开源运动:降低AI使用门槛
- 逆向赋权:用AI帮助边缘群体讲述自己的历史
第六部分:历史学的不可替代性——人文学科的最后防线?
在讨论了这么多AI的能力之后,我们必须回到根本问题:历史学的独特价值究竟是什么?
6.1 AI可以处理信息,但不能承受记忆的重量
区别:
- 信息:客观、可传输、可复制(“1945年8月6日,美国在广岛投下原子弹”)
- 记忆:主观、情感化、与身份认同绑定(“我的祖母是广岛幸存者,她从不谈那一天”)
历史学不只是记录"发生了什么",更是处理"我们如何记住"和"我们选择忘记什么"。
AI的盲点:
- 它可以统计有多少关于广岛的文献
- 但无法理解为什么日本和美国对这段历史的记忆如此不同
- 更无法判断"应该如何记忆"这个规范性问题
历史学家的独特角色:
作为记忆的守护者和批判者——既要保存被压制的记忆(如殖民暴力),也要质疑被滥用的记忆(如民族主义神话)。
6.2 AI可以发现模式,但不能判断什么值得记住
AI的逻辑:
- 高频=重要(被提及最多的事件)
- 相关性=意义(经常一起出现的概念)
历史学的逻辑:
- 有些事件虽然当时不显眼,但后来被证明是转折点
- 有些人物虽然默默无闻,但代表了时代的深层结构
例子:罗莎·帕克斯(Rosa Parks)
- 如果只看1955年的报纸,她只是一个拒绝让座的普通黑人女性
- AI不会认为这是"重要事件"(相比同年的日内瓦会议、华约成立)
- 但历史学家知道,这是民权运动的象征性起点
判断"重要性"需要:
- 价值观(什么样的社会值得追求?)
- 历史感(理解长时段的变化)
- 想象力(看到当时人看不到的可能性)
这些都是规范性判断,AI无法代劳。
6.3 AI可以生成叙事,但不能决定我们想成为谁
历史的终极功能:
不是"知道过去",而是通过过去理解现在,并想象未来。
每个时代都在重写历史,不是因为发现了新史料,而是因为我们的问题变了:
- 19世纪问"民族国家如何形成?"
- 20世纪问"革命为何失败?"
- 21世纪问"全球化如何塑造不平等?"
AI的局限:
- 它可以模仿任何时代的历史写作风格
- 但它不知道"我们这个时代最紧迫的问题是什么"
- 它没有"此时此地"的存在感
历史学家的使命:
不是"客观地"复原过去(这是实证主义的幻觉),而是负责任地为当下提供历史资源——让我们知道:
- 我们从哪里来(身份)
- 我们曾经有过哪些选择(可能性)
- 我们想成为什么样的人(价值)
这是AI永远无法替代的,因为它本质上是一个伦理和政治的任务,而不是技术任务。
结语:在技术赋能下,更好地履行使命
历史学不会死于AI,但可能会因为拒绝理解AI而边缘化。
真正的危险不是技术本身,而是:
- 无知:不理解AI如何工作,盲目崇拜或盲目拒斥
- 惰性:躲在"人文学科特殊性"的舒适区,拒绝学习新工具
- 傲慢:认为历史学的方法已经完美,不需要任何改变
但同样危险的是:
- 技术决定论:认为AI会自动带来进步
- 工具理性:把历史学简化为"信息处理"
- 去政治化:忽视AI背后的权力和资本
我们需要的是第三条道路:
1. 批判性地拥抱技术
- 学习AI的能力和局限
- 在实践中探索人机协作
- 但始终保持反思:这个工具在为谁服务?
2. 重新定义专业性
- 历史学家的价值不在于"独占史料",而在于"提供意义"
- 不是"我能接触到你接触不到的档案",而是"我能提出你想不到的问题"
- 专业性从"信息垄断"转向"判断力和想象力"
3. 建立新的学术伦理
- 透明:说明AI如何被使用
- 问责:为AI辅助的研究承担责任
- 公正:防止AI加剧知识不平等
4. 坚守人文使命
- 历史学的核心不是"处理过去的信息",而是"为现在的人提供自我理解的资源"
- AI可以扩展我们的能力,但不能替代我们的责任
- 在算法时代,人文学科的价值不是被削弱,而是更加凸显——因为只有人能判断,什么样的过去值得记住,什么样的未来值得追求。
最后,用历史学家卡洛·金兹堡的话作结:
“历史学家的工作,是在死者和生者之间建立对话。AI可以帮我们更快地找到死者的声音,但倾听、理解、并将其转化为对生者有意义的话语——这仍然是我们的工作,也只能是我们的工作。”
在AI时代,历史学家的使命没有改变,只是获得了新的工具。关键是,我们要成为工具的主人,而不是工具的奴隶。
更多推荐


所有评论(0)