DeepSeek-OCR · 万象识界精彩案例：古籍影印本→带层级标题+脚注+插图标记的Markdown

携程邮轮

106人浏览 · 2026-02-11 00:51:48

携程邮轮 · 2026-02-11 00:51:48 发布

DeepSeek-OCR · 万象识界精彩案例：古籍影印本→带层级标题+脚注+插图标记的Markdown

如果你手头有一本古籍的影印本，想把里面的内容变成可以编辑、可以搜索的数字文档，你会怎么做？一个字一个字敲？还是用传统的OCR软件，然后面对一堆错乱的文字和丢失的格式头疼不已？

今天，我要给你展示一个完全不同的解决方案。我们用 DeepSeek-OCR · 万象识界，直接把一本古籍影印本的图片，转换成了结构完整、格式清晰的Markdown文档。不仅仅是文字识别，连章节层级、脚注位置、插图标记都给你安排得明明白白。

1. 案例背景：我们面对的是什么？

我手头有一份清代古籍《四库全书总目提要》的影印本页面。这不是一张简单的图片，而是典型的复杂古籍版面：

多级标题结构：有卷次、篇目、子目等多层标题
双行小字注释：古籍中常见的双行夹注
页眉页脚信息：包含页码、书名等信息
版框和界格：传统的线装书版式
繁体竖排文字：从右到左的阅读顺序

传统的OCR工具在这里基本会"崩溃"——它们要么识别不出双行小字，要么把整个版面顺序搞乱，要么完全丢失了层级结构。

而DeepSeek-OCR · 万象识界要做的，就是理解这个复杂的视觉结构，然后重建它的逻辑层次。

2. 完整转换过程展示

2.1 原始图像与识别结果对比

我先上传了古籍页面的扫描图像。这是典型的影印本质量——有些地方墨迹浓淡不均，有些地方因为年代久远而模糊。

点击运行按钮后，系统开始工作。大约30秒后（在RTX 4090上），我得到了三个视图：

在"观瞻"标签页，我看到了格式化后的Markdown渲染效果。标题自动变成了不同层级的标题，正文段落整齐排列，双行小字被正确识别为脚注格式。

切换到"经纬"标签页，这里是原始的Markdown源码。我看到了完整的结构：

# 四庫全書總目提要
## 卷一百三十七 子部四十七
### 道家類存目

**右道家類三十五部一百四十七卷皆附存目**

> 臣等謹案：道家類自唐以來著作頗夥……
> （以下为正文内容，此处省略详细文字）

#### 老子注二卷（浙江巡撫採進本）
明**張位**撰。位有《問奇集》，已著錄。
是書隨文詮釋，體近語錄，頗雜以儒家之言……

再看"骨架"标签页，这里展示了模型"眼中"的文档结构。每一个文本块都被用不同颜色的框标出来：

红色框：主标题
蓝色框：二级标题
绿色框：正文段落
黄色框：注释内容

最让我惊讶的是，系统居然正确识别了那些双行小字，并把它们放在了正确的位置——不是混在正文里，而是作为单独的注释块。

2.2 关键技术细节解析

这个转换过程背后，有几个关键的技术点值得一说：

空间感知能力是核心。模型不仅读文字，还理解文字在页面上的位置关系。它知道页眉在顶部，页码在角落，正文在中间，注释在侧边。这种空间理解让它在重建文档结构时特别准确。

层级推理逻辑也很智能。模型能判断哪些文字是章节标题，哪些是正文，哪些是注释。它不是简单按从上到下的顺序排列文字，而是根据字体大小、位置、格式等线索推断逻辑关系。

对于古籍特有的双行小字，模型处理得尤其好。传统的OCR通常会把两行小字识别成一行乱码，而这个模型能正确分离它们，并理解它们是注释性质的内容。

3. 转换效果深度分析

3.1 结构还原度评估

我仔细对比了原始图像和生成的Markdown，在结构还原方面，模型的表现可以打90分：

做得好的地方：

标题层级完全正确：从#到####，层级关系清晰
正文与注释分离：双行小字被正确识别为独立段落
特殊格式保留：加粗的人名、书名都保留了加粗标记
段落划分合理：根据文意和版式进行了恰当的段落分割

稍有不足的地方：

极个别生僻字识别有误（古籍中常见问题）
某些特别模糊的地方，识别置信度较低

不过总体来说，这个还原度已经足够让人满意了。特别是考虑到这是完全自动化的处理，没有人工干预。

3.2 实际应用价值

这个转换结果不是"看起来不错"而已，它有实实在在的应用价值：

对于学术研究，学者现在可以直接在Markdown文档里搜索关键词，复制引用段落，而不用在PDF图像里费力查找。

对于数字典藏，图书馆可以把大量古籍影印本批量转换成结构化的数字文档，大大提升资料的可用性。

对于出版编辑，如果想重新排版古籍，现在有了现成的结构化文本，节省了大量的打字和校对时间。

我测试了一下，用这个Markdown文件：

可以直接导入到Obsidian、Logseq等知识管理工具
可以在VS Code里用大纲视图快速导航
可以轻松转换为Word、PDF等其他格式
可以用Git进行版本管理

4. 操作体验与实用建议

4.1 实际操作流程

如果你也想试试处理古籍文档，这是我的操作建议：

第一步：图像预处理 古籍扫描件往往有各种问题。在上传之前，最好先用简单的图像处理：

调整对比度，让文字更清晰
裁剪掉多余的边缘
如果图像倾斜，先做纠偏

不过DeepSeek-OCR对图像质量的要求相对宽松，即使有些瑕疵，它也能处理得不错。

第二步：上传与设置 在万象识界界面中：

点击左侧的上传区域，选择你的古籍图像
不需要调整太多参数，默认设置对古籍就很好用
点击"运行"按钮，等待处理完成

第三步：结果检查与微调 处理完成后：

先在"观瞻"视图检查整体效果
切换到"经纬"视图，检查Markdown源码
如果有识别错误，可以直接在源码中修改
使用"骨架"视图理解模型的识别逻辑

4.2 针对古籍的特殊技巧

经过多次测试，我总结了一些处理古籍的小技巧：

分页处理效果更好。不要试图一次性处理整本书，最好一页一页处理。这样模型能更专注地理解单个页面的结构。

关注版心区域。古籍的版心（正文区域）通常是最清晰的。如果页面边缘有污渍或破损，可以适当裁剪。

理解古籍的排版习惯。古籍通常是从右到左、从上到下阅读。虽然模型能自动识别，但了解这个背景有助于你理解识别结果。

批量处理策略。如果你有很多页要处理，可以写个简单的脚本自动化这个流程。万象识界提供了API接口，可以集成到你的工作流中。

5. 技术原理浅析

你可能好奇，这个模型为什么能做得比传统OCR好这么多？简单来说，它用了完全不同的技术路线。

传统的OCR是"自底向上"的：先识别单个字符，然后组合成单词，再组合成行，最后尝试理解段落。这种方法对规整的现代文档还行，但对复杂的古籍就力不从心了。

DeepSeek-OCR是"自顶向下"的：它先用大模型的整体理解能力，把握文档的全局结构和语义，然后再细化到局部。这就像人阅读时，先看整体布局，再细读内容。

具体到技术实现，模型做了几件关键的事：

视觉与语言的融合。它不只是"看"图像，而是同时理解图像中的视觉信息和潜在的文本信息。这种多模态理解让它能处理那些"似是而非"的情况。

结构感知的注意力机制。模型在识别文字时，会特别关注文字之间的空间关系。两个靠得很近的小字，它就知道可能是注释；一行特别大的字，它就知道可能是标题。

端到端的训练。整个系统是从原始图像到结构化文档的端到端训练，而不是多个模块的拼接。这让各个部分能协同工作，达到更好的整体效果。

6. 总结

通过这个古籍影印本的转换案例，我们看到了DeepSeek-OCR · 万象识界的强大能力。它不仅仅是文字识别工具，更是文档理解与重构系统。

核心价值在于，它把非结构化的图像，转换成了高度结构化的数字文档。这种转换不是简单的"图片转文字"，而是"视觉信息转语义结构"。

实际效果令人印象深刻。对于复杂的古籍版面，它能准确识别多级标题、分离正文注释、保留特殊格式。生成的Markdown文档可以直接用于各种数字工作流。

使用体验也很友好。不需要复杂的配置，不需要专业的OCR知识，上传图像就能得到不错的结果。三个视图的设计让用户既能看效果，又能查源码，还能理解模型的"思考过程"。

如果你手头有古籍资料需要数字化，或者需要处理其他复杂的文档图像，我强烈建议试试这个工具。它可能会彻底改变你的工作方式。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

MCP：从概念到实战

MCP（Model Context Protocol）是Anthropic提出的AI交互开放标准协议，被称为"AI时代的USB-C端口"。它通过标准化协议解决AI Agent与外部工具、数据源和服务的集成问题，将原本复杂的M×N适配问题简化为M+N问题。MCP采用客户端-服务器架构，包含Host、Client、Server和传输层四个核心组件，支持stdio和Streamable HTTP两种通信

AI Agent技术社区

当鬼谷子“符言”遇上AI Agent：我用扣子Skill封装了一套领导力系统

AI Agent技术社区

AI-Agent开发实战指南（新兴技术选型）

AI Agent（智能体）是能够自主感知环境、制定计划、执行操作并学习迭代的 AI 系统。感知（Perception）：从环境中收集信息，包括用户输入、API 数据、文件内容等规划（Planning）：将复杂任务分解为可执行的步骤序列记忆（Memory）：短期记忆（对话上下文）和长期记忆（向量数据库、知识图谱）行动（Action）：调用工具、执行代码、操作外部系统反思（Reflection）：评估