【PDF提取神器】针对LLM推出的PymuPDF4llm库可提取pdf中的Markdown格式文字/表格/图像/单词

pdf提取的全新库PymuPDF4llm，以markdown格式提取文字，且能提取图像、表格、文字，辅助LLM构建更强大的多模态应用

m0_68116052

2757人浏览 · 2024-11-07 15:59:00

m0_68116052 · 2024-11-07 15:59:00 发布

前言

PymuPDF4llm 是最新推出的pdf提取工具，针对LLM进行了专门优化，它支持markdown提取和LlamaIndex文档输出，可以准确提取pdf中的结构化数据，包括文字/表格/图像/单词，其中文字以markdown的形式提取，图像则以路径的形式插入到文字中并且存储在对应路径中。使用PymuPDF4llm 获取多模态数据后，多模态LLM可以利用各种图文信息来执行更多样的任务，提高应用程序的性能。在试用之后发现文字和图像的识别效果很不错，表格和单词由于场景较少所以暂时没有直观体验。

安装Pymupdf4llm

pip install pymupdf4llm

简单使用，提取markdown格式文本：

import pymupdf4llm

# 提取 markdown 格式的文本

md_text = pymupdf4llm.to_markdown(doc="input.pdf")

print(md_text)

# 存储为 markdown 格式的文件

import pathlib

output_file = pathlib.Path("output.md")

output_file.write_bytes(md_text.encode())

复杂使用，提取文本、图像、表格、单词并以字典形式保存。扩展 to_markdown 函数的参数：

md_text = pymupdf4llm.to_markdown(doc="input.pdf", # 输入文档
                                                             pages = [0, 1, 2],  # 选中页码
page_chunks = True,  # 进行chunk切分
write_images = True,  # 提取图片
                                                             image_path = "/content/images",  # 图片保存路径
image_format = "jpg",  # 图片保存格式
dpi = 200,  # 图片分辨率
extract_words = True)  # 提取单词