GLM-OCR快速上手：Web界面导出功能支持TXT/JSON/Markdown三种格式下载

宁南山

278人浏览 · 2026-02-14 00:54:40

宁南山 · 2026-02-14 00:54:40 发布

GLM-OCR快速上手：Web界面导出功能支持TXT/JSON/Markdown三种格式下载

1. 项目简介与核心价值

GLM-OCR是一个基于先进多模态架构的智能文档识别工具，专门为处理复杂文档场景而设计。它不仅能识别普通文字，还能准确解析表格结构、数学公式等复杂内容，真正实现了"看懂"文档的智能化处理。

这个工具最大的亮点在于其Web界面提供了三种导出格式：TXT纯文本、JSON结构化数据和Markdown格式。这意味着无论你是需要简单的文字提取，还是需要结构化数据进行分析，或者想要直接生成格式化的文档，GLM-OCR都能满足你的需求。

为什么这个功能很重要？

TXT格式：适合快速获取纯文本内容，便于复制粘贴到任何地方
JSON格式：保留完整的结构化信息，表格数据、文字位置等信息一目了然
Markdown格式：直接生成格式化的文档，包含标题、列表、表格等排版元素

2. 环境准备与快速启动

2.1 系统要求与前置准备

在使用GLM-OCR之前，确保你的系统满足以下基本要求：

Linux操作系统（推荐Ubuntu 18.04+）
NVIDIA GPU（显存至少4GB）
已安装Python 3.10环境
网络连接正常（用于首次下载模型）

2.2 一键启动服务

启动过程非常简单，只需要几个命令：

# 进入项目目录
cd /root/GLM-OCR

# 启动OCR服务
./start_vllm.sh

首次启动时需要下载模型文件（约2.5GB），这个过程通常需要1-2分钟。你会看到终端显示加载进度，完成后会提示服务已启动在7860端口。

常见问题解决：如果启动失败，可能是端口被占用，可以运行：

lsof -i :7860  # 查看哪个进程占用了端口
kill -9 <进程ID>  # 结束该进程

3. Web界面使用详解

3.1 访问与界面介绍

在浏览器中输入 http://你的服务器IP:7860 即可打开GLM-OCR的Web界面。界面设计简洁直观，主要分为三个区域：

左侧上传区：支持拖拽或点击上传图片文件
中间功能选择区：文本识别、表格识别、公式识别三种模式
右侧结果展示区：识别结果实时显示，底部有导出选项

3.2 完整操作流程

让我们通过一个实际例子来演示如何使用：

步骤1：准备测试图片 找一张包含文字、表格或公式的图片，支持PNG、JPG、WEBP格式。建议图片清晰度高，文字对比度明显，这样识别效果更好。

步骤2：上传并选择功能

点击"Upload"按钮选择图片，或者直接拖拽图片到上传区域
根据图片内容选择识别模式：
- 文本识别：普通文字内容
- 表格识别：包含表格结构的文档
- 公式识别：数学公式、化学方程式等

步骤3：开始识别并查看结果 点击"开始识别"按钮，等待几秒钟后，右侧就会显示识别结果。你可以直接查看文本内容，或者检查表格结构是否正确。

4. 导出功能深度体验

4.1 三种导出格式对比

GLM-OCR提供了三种导出格式，每种都有其独特的用途：

格式	适用场景	特点	文件大小
TXT	快速文字提取、简单复制粘贴	纯文本，无格式	最小
JSON	数据分析、程序处理	结构化数据，包含位置信息	中等
Markdown	文档编写、博客发布	带格式的文本，可直接使用	较小

4.2 实际导出操作

在识别完成后，结果区域底部会出现三个导出按钮：

导出TXT：点击后立即下载纯文本文件，适合快速获取文字内容
导出JSON：下载结构化数据文件，可以用文本编辑器或代码打开查看
导出Markdown：生成格式化的文档，保留标题、列表等排版元素

JSON文件结构示例：

{
  "content": [
    {
      "type": "text",
      "text": "识别出的文字内容",
      "position": [100, 200, 300, 400]
    },
    {
      "type": "table",
      "data": [
        ["表头1", "表头2"],
        ["数据1", "数据2"]
      ]
    }
  ]
}

4.3 导出文件的实际应用

案例1：学术论文处理 假设你有一篇论文的截图，里面包含文字、表格和公式。使用GLM-OCR识别后：

导出TXT：快速获取文字内容用于引用
导出JSON：提取表格数据用于数据分析
导出Markdown：生成格式化的文档草稿

案例2：商业报告转换 将扫描版的商业报告转换为数字格式：

先用"表格识别"模式处理数据表格
导出JSON格式，保留完整的表格结构
导入到Excel或数据库中进行进一步分析

5. 高级技巧与最佳实践

5.1 提升识别准确率的方法

为了提高识别效果，这里有一些实用建议：

图片预处理技巧：

确保图片亮度适中，避免过暗或过亮
如果图片倾斜，先进行旋转校正
分辨率不宜过低，建议300DPI以上

功能选择建议：

纯文字内容选择"文本识别"
包含数据表格的选择"表格识别"
有数学公式的选择"公式识别"
混合内容可以先尝试"文本识别"，如果不理想再尝试其他模式

5.2 批量处理技巧

虽然Web界面主要针对单张图片，但你可以通过一些技巧实现批量处理：

import os
from gradio_client import Client

# 连接服务
client = Client("http://localhost:7860")

# 批量处理图片文件夹
image_folder = "/path/to/images/"
output_folder = "/path/to/output/"

for image_file in os.listdir(image_folder):
    if image_file.endswith(('.png', '.jpg', '.jpeg', '.webp')):
        image_path = os.path.join(image_folder, image_file)
        result = client.predict(
            image_path=image_path,
            prompt="Text Recognition:",
            api_name="/predict"
        )
        
        # 保存结果
        output_path = os.path.join(output_folder, f"{os.path.splitext(image_file)[0]}.txt")
        with open(output_path, 'w', encoding='utf-8') as f:
            f.write(result)