DeepSeek-OCR从零开始：Streamlit界面交互+三视图（预览/源码/骨架）使用手册

高天艳阳

327人浏览 · 2026-02-13 00:43:27

高天艳阳 · 2026-02-13 00:43:27 发布

DeepSeek-OCR从零开始：Streamlit界面交互+三视图（预览/源码/骨架）使用手册

1. 项目概述

DeepSeek-OCR是一个基于DeepSeek-OCR-2模型的现代化智能文档解析工具。这个项目能够将静态的图像文档转换为结构化的Markdown格式，同时提供深度的文档布局分析功能。

想象一下这样的场景：你手头有一份复杂的文档图片，可能是扫描的合同、手写笔记或者包含表格的报告。传统OCR工具只能提取文字，但DeepSeek-OCR不仅能准确识别文字内容，还能理解文档的结构布局，最终生成既美观又实用的Markdown文档。

项目的核心价值在于"三位一体"的解析能力：

文字识别：准确提取文档中的文字内容
结构理解：分析文档的版面布局和元素关系
格式转换：生成可直接使用的Markdown格式

2. 环境准备与安装

2.1 硬件要求

要运行DeepSeek-OCR，你需要准备以下硬件环境：

显卡：至少24GB显存，推荐使用NVIDIA A10、RTX 3090/4090或更高性能的显卡
内存：建议32GB以上系统内存
存储：需要足够的磁盘空间存放模型文件（约几十GB）

2.2 软件依赖安装

首先创建并激活Python虚拟环境：

# 创建虚拟环境
python -m venv deepseek-ocr-env

# 激活环境（Linux/Mac）
source deepseek-ocr-env/bin/activate

# 激活环境（Windows）
deepseek-ocr-env\Scripts\activate

安装必要的Python包：

pip install streamlit torch torchvision Pillow

2.3 模型文件准备

下载DeepSeek-OCR-2模型文件，并放置在指定目录：

# 创建模型存储目录
import os
os.makedirs("/root/ai-models/deepseek-ai/DeepSeek-OCR-2/", exist_ok=True)

# 模型文件结构
MODEL_PATH = "/root/ai-models/deepseek-ai/DeepSeek-OCR-2/"
# 这里应该包含模型权重文件和相关配置文件

3. 核心功能详解

3.1 文档解析转换

DeepSeek-OCR的核心功能是将图像文档转换为Markdown格式。这个过程不仅仅是简单的文字识别，而是深度的文档理解：

复杂文档处理：能够解析包含表格、列表、代码块等复杂元素的文档
格式保留：准确保持原文的标题层级、段落结构、列表格式
表格识别：将图像中的表格转换为Markdown表格格式
手写支持：对清晰的手写文字也有不错的识别效果

3.2 空间位置感知

与传统OCR不同，DeepSeek-OCR能够感知字符在文档中的具体位置：

# 空间位置感知示例
def analyze_document_layout(image_path):
    """
    分析文档布局结构
    """
    # 模型会返回每个文字块的位置坐标
    # 包括左上角坐标、宽度、高度等信息
    layout_data = {
        'text_blocks': [
            {
                'text': '示例文字',
                'bbox': [x1, y1, x2, y2],  # 边界框坐标
                'confidence': 0.95          # 识别置信度
            }
        ]
    }
    return layout_data

3.3 三视图展示系统

DeepSeek-OCR提供三种不同的结果查看方式：

预览视图：直接显示格式化后的Markdown渲染效果，就像在文档编辑器中看到的一样。

源码视图：显示原始的Markdown源代码，方便开发者复制和使用。

骨架视图：展示模型识别出的文档结构框架，用可视化框线显示各个文本块的位置和关系。

4. 快速上手教程

4.1 启动Streamlit应用

首先确保你已经安装了所有依赖，然后运行以下命令启动应用：

streamlit run app.py

应用启动后，会在本地打开一个浏览器窗口，显示DeepSeek-OCR的操作界面。

4.2 上传并解析文档

第一步：上传图片 在左侧边栏找到文件上传区域，点击"Upload Image"按钮，选择你要解析的文档图片。支持JPG、PNG等常见格式。

第二步：开始解析 上传完成后，点击"Run OCR"按钮开始解析过程。根据文档复杂度和硬件性能，这个过程可能需要几秒到几十秒。

第三步：查看结果 解析完成后，主界面会显示三个标签页：

# 结果展示界面结构示例
def display_results(ocr_results):
    """
    显示三视图结果
    """
    tabs = st.tabs(["📄 Preview", " Source Code", "🖼 Structure"])
    
    with tabs[0]:
        # 显示预览视图
        st.markdown(ocr_results['formatted_markdown'])
    
    with tabs[1]:
        # 显示源码视图
        st.code(ocr_results['raw_markdown'], language='markdown')
    
    with tabs[2]:
        # 显示骨架视图
        st.image(ocr_results['structure_image'])

4.3 保存和导出结果

在任何一个视图页面，你都可以找到下载按钮：

下载Markdown文件：将解析结果保存为.md文件
复制源代码：一键复制Markdown源码到剪贴板
保存结构图：下载文档结构可视化图片

5. 实际应用案例

5.1 技术文档转换

假设你有一份技术文档的扫描件，包含代码示例和表格：

# 技术文档示例

## 安装步骤

1. 创建虚拟环境：
```bash
python -m venv myenv

安装依赖包：

pip install -r requirements.txt

配置参数

参数名	默认值	说明
batch_size	32	训练批大小
learning_rate	0.001	学习率


DeepSeek-OCR能够准确识别这种复杂格式，并生成结构完整的Markdown文档。

### 5.2 学术论文解析

对于包含数学公式、图表引用的学术论文，DeepSeek-OCR也能很好地处理：

```markdown
# 论文标题

## 摘要

本文提出了一种新的方法，在准确率上达到了95.7%。

## 方法描述

我们的方法基于以下公式：

$E = mc^2$

## 实验结果

如图1所示，我们的方法在多个数据集上都取得了最优结果。

5.3 商业报告处理

商业报告通常包含大量的表格和数据，DeepSeek-OCR的表格识别功能特别有用：

# 2024年第一季度报告

## 销售数据

| 产品线 | 销售额 | 增长率 |
|--------|--------|--------|
| 产品A | $1,234,567 | +15.2% |
| 产品B | $987,654 | +8.7% |
| 产品C | $456,789 | +22.1% |

6. 高级使用技巧

6.1 批量处理文档

虽然Streamlit界面主要针对单文档处理，但你也可以修改代码实现批量处理：

def batch_process_documents(image_folder, output_folder):
    """
    批量处理文件夹中的文档
    """
    import os
    from PIL import Image
    
    os.makedirs(output_folder, exist_ok=True)
    
    for filename in os.listdir(image_folder):
        if filename.lower().endswith(('.png', '.jpg', '.jpeg')):
            image_path = os.path.join(image_folder, filename)
            
            # 处理单个文档
            result = process_single_document(image_path)
            
            # 保存结果
            output_path = os.path.join(output_folder, f"{os.path.splitext(filename)[0]}.md")
            with open(output_path, 'w', encoding='utf-8') as f:
                f.write(result['raw_markdown'])

6.2 自定义解析参数

你可以调整解析参数来优化特定类型文档的处理效果：

# 自定义解析配置
custom_config = {
    'table_detection': True,      # 启用表格检测
    'math_formula': True,         # 启用数学公式识别
    'handwriting_mode': False,    # 手写模式
    'confidence_threshold': 0.8,  # 置信度阈值
}

# 应用自定义配置
results = process_document_with_config(image_path, custom_config)

6.3 结果后处理

解析完成后，你可以对结果进行进一步处理：

def postprocess_markdown(markdown_text):
    """
    对Markdown结果进行后处理
    """
    # 修复常见的格式问题
    processed_text = markdown_text.replace(' . ', '. ')  # 修复句点空格
    processed_text = processed_text.replace(' , ', ', ')  # 修复逗号空格
    
    # 优化表格格式
    lines = processed_text.split('\n')
    processed_lines = []
    
    for line in lines:
        if line.startswith('|') and line.endswith('|'):
            # 对齐表格内容
            line = line.replace(' | ', '|').replace('| ', '|').replace(' |', '|')
        processed_lines.append(line)
    
    return '\n'.join(processed_lines)

7. 常见问题解答

7.1 性能优化建议

问题：处理速度较慢怎么办？解答：可以尝试以下优化方法：

确保使用GPU运行，CPU模式会慢很多
调整图像大小，过大图片可以先适当压缩
关闭不需要的功能，如不需要结构可视化可以关闭相关选项

7.2 识别精度提升

问题：某些文档识别不准怎么办？解答：尝试这些方法：

确保输入图片清晰度高，对比度足够
调整置信度阈值，提高或降低要求
对于特定类型文档，使用对应的预处理方法

7.3 内存管理

问题：遇到内存不足错误怎么办？解答：内存管理建议：

关闭其他占用显存的程序
减小处理图片的分辨率
分批处理大量文档，不要一次性处理太多

8. 总结

DeepSeek-OCR作为一个先进的文档解析工具，通过深度学习和计算机视觉技术的结合，为文档数字化提供了强大的解决方案。无论是技术文档、学术论文还是商业报告，它都能准确识别并转换为结构化的Markdown格式。

核心优势总结：

高精度识别：不仅识别文字，还理解文档结构
多格式支持：完美处理表格、列表、代码块等复杂元素
可视化界面：三视图设计满足不同使用需求
灵活导出：支持多种格式的结果导出

使用建议：

对于重要文档，建议先小批量测试效果
根据文档类型调整解析参数
定期更新模型以获得更好的识别效果

通过本教程，你应该已经掌握了DeepSeek-OCR的基本使用方法。现在可以开始尝试处理你自己的文档，体验智能文档解析带来的便利了。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

2026 年 ChatGPT Plus 国内订阅与常见支付问题整理

2026 年国内用户使用 ChatGPT Plus，真正需要关注的不只是价格，而是整个使用链路是否稳定。包括账号状态、支付方式、续费情况、使用频率、售后处理和长期成本。如果只是偶尔体验，没必要过度投入。但如果你是长期使用，尤其是每天都依赖 ChatGPT 或 Codex 做工作，就要把稳定性放在更前面。AI 工具本质上是用来提升效率的。如果为了开通和续费反复折腾，反而会消耗掉它原本应该节省的时间。

AI Agent技术社区

Codex 和 Claude Code CLI (Windows)常用快捷键：终端不是退路，是编程的主场

AI Agent技术社区

GEO 实战:怎么让 ChatGPT、DeepSeek、豆包主动推荐你的产品

1. 测量:在九大模型(ChatGPT、Gemini、Grok、DeepSeek、Kimi、GLM、豆包、Qwen、Perplexity)上,用真实买家问题查你的品牌出现率(Share of Voice),这是基线。3. 分发:在 AI 信任的渠道产出真实有用的内容(知乎回答、技术博客、GitHub、海外 Reddit/Quora),自然地把品牌作为可信实体铺出去——不是软广,是真帮到人的内容加上