从零开始搭建基于Langchain-Chatchat的智能客服系统

基于 Langchain-Chatchat 和 RAG 架构，实现私有知识与大模型融合的智能问答系统。通过本地化部署保障数据安全，利用文档解析、向量化检索与生成式回答，解决知识孤岛、模型幻觉与合规风险，适用于金融、医疗等高敏感行业。

三更寒天

855人浏览 · 2025-12-18 15:56:14

三更寒天 · 2025-12-18 15:56:14 发布

基于 Langchain-Chatchat 构建企业级智能客服系统：从原理到落地

在企业数字化转型的浪潮中，如何让员工快速获取内部知识、让客户获得精准服务响应，已成为提升运营效率的关键命题。传统客服依赖人工或规则引擎，面对海量非结构化文档时显得力不从心；而直接调用公有云大模型虽能生成流畅回答，却面临数据外泄、答案“一本正经地胡说八道”等现实问题。

有没有一种方案，既能利用大语言模型的强大理解能力，又能确保所有信息处理都在内网完成？Langchain-Chatchat 正是为解决这一矛盾而生——它不是简单的聊天机器人，而是一套将私有知识与大模型推理深度融合的技术体系。

这套系统的核心思路其实很直观：不让模型凭空想象，而是先告诉它“该说什么”，再让它组织语言输出。具体来说，当用户提问时，系统不会直接把问题丢给大模型，而是先从企业已有的文档库中检索出最相关的段落，把这些真实存在的内容作为上下文拼接到提示词中，最后才交给本地部署的大模型进行归纳和表达。

这个流程就是当前主流的 RAG（Retrieval-Augmented Generation，检索增强生成）范式。相比纯生成模式，RAG 最大的优势在于“有据可依”。比如有人问：“我们项目延期最多能申请几天？” 如果这个问题在《研发管理制度V2.1》中有明确规定，系统就能准确引用原文作答，而不是根据通用语料推测一个看似合理但不符合公司政策的答案。

要实现这样的能力，背后需要多个技术模块协同工作。整个链条始于文档解析。Langchain-Chatchat 支持上传 PDF、Word、Excel、Markdown 等多种格式文件，通过 PyPDF2、python-docx、pandas 等库提取原始文本。这些文档可能是产品手册、合同模板、操作指南，甚至是会议纪要，来源多样且结构各异。

接下来是文本分块处理。原始文档往往很长，无法一次性输入模型。因此系统会使用 RecursiveCharacterTextSplitter 将文本切分为固定长度的片段，通常设置为 256 到 512 个字符，并保留一定的重叠部分（chunk_overlap），防止语义断裂。例如一段关于报销流程的文字被切成若干小块，每一块都包含足够的上下文信息。

分块完成后，进入向量化阶段。每个文本块会被送入嵌入模型（Embedding Model），转换成高维向量——这一步相当于给每段文字打上“语义指纹”。常用的中文嵌入模型如 text2vec-large-chinese 或 bge-small-zh，它们经过大量中文语料训练，在语义匹配上表现优异。这些向量随后存入向量数据库，如 FAISS、Milvus 或 Weaviate，形成可高效检索的知识索引。

当用户发起查询时，系统首先将问题也转化为向量，然后在向量库中执行近似最近邻搜索（ANN），找出语义最接近的几个文本块。这个过程基于余弦相似度计算，能在毫秒级时间内完成数千条记录的比对。假设用户问：“新员工入职需要准备哪些材料？” 系统可能检索到《人力资源入职指引》中的相关章节。

最后一步是生成回答。检索到的相关文本块与原始问题一起构造成 prompt，送入本地部署的大语言模型（LLM）。此时模型的任务不再是“创造答案”，而是“基于已有信息总结回答”。例如：

Prompt 示例：

你是一个专业的企业助手，请根据以下参考资料回答问题。

参考资料：
- 新员工需提交身份证复印件、学历证明扫描件、近期免冠照片3张；
- 社保公积金账户信息需在入职后5个工作日内登记；
- 入职培训安排在第二周周一上午9点。

问题：新员工入职要带什么材料？

回答：

在这种机制下，模型的回答质量高度依赖于检索结果的准确性。这也是为什么选择合适的嵌入模型和分块策略至关重要。如果分得太细，上下文缺失；分得太大，又可能导致噪声干扰。实践中建议结合业务场景调整参数，例如法律条文适合按条款切分，技术文档则可按段落处理。

整个流程之所以能够灵活组装，离不开 LangChain 框架 的支撑。LangChain 并不是一个模型，而是一个“胶水层”，它提供了统一接口来连接各种组件：文档加载器、文本分割器、嵌入模型、向量存储、检索器、提示模板和 LLM 调用封装。开发者无需关心底层差异，即可自由替换不同模块。

以构建一个问答链为例，代码可以简洁到如下程度：

from langchain.chains import RetrievalQA
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS
from langchain.llms import HuggingFaceHub

# 初始化嵌入模型
embeddings = HuggingFaceEmbeddings(model_name="GanymedeNil/text2vec-large-chinese")

# 加载向量数据库
vectorstore = FAISS.load_local("knowledge_base", embeddings)

# 接入本地大模型
llm = HuggingFaceHub(repo_id="THUDM/chatglm3-6b", model_kwargs={"temperature": 0.5})

# 创建检索问答链
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=vectorstore.as_retriever(search_kwargs={"k": 3}),
    return_source_documents=True
)

这段代码定义了一个完整的 RAG 流程：接收问题 → 向量化检索 → 拼接上下文 → 调用 LLM 生成答案 → 返回结果及引用来源。其中 search_kwargs["k"] 控制返回多少个相关文档片段，temperature 决定生成内容的随机性（问答系统建议设为 0.3~0.7），chain_type 可选 "stuff"（全部拼接）、"map_reduce"（逐段处理后汇总）等模式，适应不同复杂度任务。

真正让这套系统具备落地价值的，是其对 本地化部署 的全面支持。企业可以选择将大模型运行在自有服务器上，避免任何数据出境风险。目前主流的开源中文 LLM 包括：

ChatGLM3-6B（智谱AI）：中文理解能力强，6B 参数可在消费级显卡运行；
Qwen-7B（通义千问）：支持长上下文，适合处理技术文档；
Baichuan2-7B（百川智能）：开放商用许可，适合企业集成；
Llama3-8B 中文微调版：英文为主，需配合中文适配优化。

为了降低硬件门槛，还可以采用量化技术。例如使用 llama.cpp 将模型转为 GGUF 格式并进行 INT4 量化，使得 7B 模型在仅 6GB 显存下即可运行。配置示例如下：

{
  "llm_model_provider": "llama_cpp",
  "model_path": "models/qwen-7b-int4.gguf",
  "n_gpu_layers": 35,
  "n_ctx": 2048
}

这里 n_gpu_layers 表示将模型多少层卸载至 GPU 加速（需 CUDA 支持），n_ctx 定义上下文窗口大小，影响最大输入输出长度。对于 CPU 推理环境，建议启用 mmap 和多线程优化，充分利用内存带宽。

典型的部署架构由四层构成：

+------------------+       +---------------------+
|   用户访问入口    |<----->|   Web UI (Gradio)    |
+------------------+       +----------+----------+
                                      |
                      +---------------v------------------+
                      |     Langchain-Chatchat 主服务       |
                      |  - 接收问题                        |
                      |  - 调用Retriever查找相关文档        |
                      |  - 组织Prompt并调用本地LLM生成答案   |
                      +---------------+------------------+
                                      |
                      +---------------v------------------+
                      |     向量数据库 (FAISS/Milvus)       |
                      |  - 存储文档块的向量表示               |
                      +---------------+------------------+
                                      |
                      +---------------v------------------+
                      |   嵌入模型 & LLM (本地部署)          |
                      |  - text2vec / bge (Embedding)       |
                      |  - ChatGLM / Qwen (Generation)      |
                      +------------------------------------+

所有组件均可部署在同一台高性能服务器或 Kubernetes 集群中，形成闭环系统。管理员可通过 Web 界面上传新文档，系统自动完成解析、分块、向量化和索引更新。对于大型企业，还可按部门划分知识库权限，实现财务、人事、研发等敏感信息的隔离访问。

实际应用中，这套系统解决了三大核心痛点：

知识孤岛问题：过去员工需翻阅数十份文档才能找到某个流程细节，现在只需一句话提问即可获得精准答案；
幻觉控制难题：公共模型容易虚构不存在的政策条款，而 RAG 强制“引经据典”，显著降低错误率；
合规安全挑战：所有数据处理均在内网完成，满足 GDPR、ISO27001 等监管要求。

当然，成功落地还需考虑一些工程细节。例如：
- 对高频问题缓存检索结果，减少重复计算开销；
- 设计增量索引机制，避免每次全量重建知识库；
- 记录用户反馈日志，用于持续优化分块策略和模型参数；
- 监控 LLM 响应延迟、token 消耗和错误率，建立告警机制。

更重要的是，不要期望“一次部署永久有效”。知识库需要定期维护，模型也可能随着时间推移出现性能衰减。建议建立“问题-反馈-迭代”的闭环机制，让系统越用越聪明。

Langchain-Chatchat 的意义不仅在于提供了一套工具链，更在于它验证了一种可行的技术路径：在不牺牲安全性的前提下，实现高质量的智能问答。它让我们看到，未来的智能客服不再是云端黑盒 API 的附庸，而是根植于企业自身知识土壤的有机系统。

随着轻量化模型和边缘计算的发展，这类本地化智能应用将在金融、医疗、制造等行业加速普及。而对于技术团队而言，掌握 RAG 架构的设计思想，远比学会某个具体框架更重要——因为这才是通往真正可信 AI 的必经之路。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

Agent 工程中的模型缓存优化经验分享

AI Agent技术社区

CC-Switch不只是切换API：从GitHub更新日志看懂它的功能和底层原理

CC Switch：从配置切换器到AI编程统一管理平台摘要： CC Switch已从最初的Claude Code/Codex供应商切换工具，发展为功能全面的AI编程管理平台。它通过统一界面管理多个AI编程工具（Claude Code、Codex、Gemini CLI等）的配置，支持供应商切换、本地代理路由、跨工具能力同步等功能。核心演进包括：采用SSOT架构集中管理供应商数据、扩展支持6+工具、

AI Agent技术社区

转载--Hermes Agent 05 | 记忆系统（上）：内置记忆的冻结快照模式与 agent-curated 策展

找到匹配的会话后，不是直接把原始对话扔回给主模型——那太长了。它用一个辅助模型（Gemini Flash）对每个匹配的会话做摘要（）：加载匹配会话的完整对话记录以匹配位置为中心，截断到 ~100,000 字符（发给 Gemini Flash，用一个聚焦的 summarization prompt 生成摘要返回带元数据的摘要结果用便宜的辅助模型（Gemini Flash）来压缩长对话，再把短摘要喂给