LangExtract：大语言模型信息提取利器

LangExtract 是一款 Python 库，借助大语言模型从非结构化文本中提取结构化信息。它具有精准溯源、输出稳定等优势，支持多种模型，适用于多领域。

语言之家

95人浏览 · 2026-02-09 09:36:01

语言之家 · 2026-02-09 09:36:01 发布

LangExtract 是一款 Python 库，借助大语言模型从非结构化文本中提取结构化信息。它具有精准溯源、输出稳定等优势，支持多种模型，适用于多领域。

核心优势凸显

LangExtract 优势显著。它能精准溯源，将提取内容映射到原文位置，还支持可视化高亮。输出结构稳定，利用模型可控生成功能。长文档处理能力强，采用分块等策略提高召回率。此外，它支持多种模型，适应各领域需求。这些特性使其在信息提取领域脱颖而出。

快速上手体验

使用 LangExtract 可快速开始信息提取。先定义提取任务，创建清晰提示并提供示例。接着执行提取操作，将输入文本和提示材料提供给函数。最后可将结果保存为 JSONL 文件并生成可视化界面。推荐默认模型为 `gemini - 2.5 - flash`。

多样场景适配

它能处理长文档，通过并行处理和多次遍历，从完整小说中提取实体。还支持 Vertex AI 批量处理以节省成本。在不同领域也有应用，如从《罗密欧与朱丽叶》全文、药物信息、放射学报告中提取信息。

多模型支持灵活

LangExtract 支持多种模型。使用云模型需设置 API 密钥，有多种设置途径。它支持 OpenAI 模型，但需安装可选依赖，且有特殊参数设置。还支持使用 Ollama 运行本地大语言模型，无需 API 密钥。

社区与贡献活跃

LangExtract 有社区提供商插件注册表，可扩展功能。欢迎开发者贡献代码，同时有完善的测试、代码格式化、预提交钩子和代码检查流程，确保代码质量。

编辑观点：LangExtract 功能强大且灵活，能满足多场景信息提取需求。随着大语言模型发展，其应用前景广阔，有望推动信息提取领域进一步发展。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

Agent 工程中的模型缓存优化经验分享

AI Agent技术社区

CC-Switch不只是切换API：从GitHub更新日志看懂它的功能和底层原理

CC Switch：从配置切换器到AI编程统一管理平台摘要： CC Switch已从最初的Claude Code/Codex供应商切换工具，发展为功能全面的AI编程管理平台。它通过统一界面管理多个AI编程工具（Claude Code、Codex、Gemini CLI等）的配置，支持供应商切换、本地代理路由、跨工具能力同步等功能。核心演进包括：采用SSOT架构集中管理供应商数据、扩展支持6+工具、

AI Agent技术社区

转载--Hermes Agent 05 | 记忆系统（上）：内置记忆的冻结快照模式与 agent-curated 策展

找到匹配的会话后，不是直接把原始对话扔回给主模型——那太长了。它用一个辅助模型（Gemini Flash）对每个匹配的会话做摘要（）：加载匹配会话的完整对话记录以匹配位置为中心，截断到 ~100,000 字符（发给 Gemini Flash，用一个聚焦的 summarization prompt 生成摘要返回带元数据的摘要结果用便宜的辅助模型（Gemini Flash）来压缩长对话，再把短摘要喂给