langchain4j-embeddings加载不同文件类型时解释器的选择

.pdf类型文档：使用ApachePdfBoxDocumentParser解释器.doc、.docx类型文档：使用ApachePoiDocumentParser解释器报错：the document is really a UNKNOWN fileApacheTikaDocumentParser解析器代替ApachePoiDocumentParser解析器.txt、.csv、.html5、.json

兮兮子玉

1037人浏览 · 2024-05-17 16:14:20

兮兮子玉 · 2024-05-17 16:14:20 发布

langchain4j自带的文件解释器包含了对大多数常见的文件类型的解析能力，默认文档解释器如下：

常见的txt、csv、html5等文件类型的解释器：

按照官方示例教程使用如下：

.pdf类型文档：使用ApachePdfBoxDocumentParser解释器

.doc、.docx类型文档：使用ApachePoiDocumentParser解释器

实际测试下来大多数文件类型都能加载和解析出来，但是对于某些比较老的doc文件会加载失败报错：the document is really a UNKNOWN file或者Cant't create extractor - unsupported file type: UNKNOWN之类的报错，又或没报错但是识别不出来只有表格文档等各种奇葩问题。

尝试使用Apache poi的相关api去手动实现parser效果都不太理想之后想起来还有一个自带的解释器没有尝试，故尝试使用ApacheTikaDocumentParser解析器代替ApachePoiDocumentParser解析器，意外的发现以上问题均被解决了！

同时ApacheTikaDocumentParser解析器甚至可以解析doc文件中的附件里面的内容！！（不懂官方示例为什么不用这个）

.txt、.csv、.html5、.json等文件类型使用：TextDocumentParser解析器即可（注意文件的编码格式，默认为utf-8！编码格式不一致时会导致解析出来的结果是乱码等问题，推荐统一将文件转为utf-8编码或者使用public TextDocumentParser(Charset charset)这个构造函数传入文件编码格式）。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

如何卸载openclaw

OpenClaw（俗称"龙虾"）是一个本地 AI 智能体平台，用于在电脑上部署自主运行的 AI 代理。

AI Agent技术社区

（已解决）安装openclaw龙虾[特殊字符]npm权限问题EACCES

先安装升级完成node和homebrew后。安装就很快了。但是遇到EACCESS问题！！！发现报错了。问题错误：核心问题是sharp解决（90%人遇到的）安装 macOS 编译工具很多人缺少，导致sharp无法编译。运行：xcode-select --install安装完成后重新执行：sharp编译需要 C++ 编译器和 node-gyp，这些都来自 Xcode CLI。