DeepSeek-R1-Distill-Qwen-1.5B与LangChain集成：构建智能问答系统

笨爪

236人浏览 · 2026-02-12 10:52:03

笨爪 · 2026-02-12 10:52:03 发布

DeepSeek-R1-Distill-Qwen-1.5B与LangChain集成：构建智能问答系统

1. 引言

想象一下，你有一个庞大的内部知识库，里面装满了产品文档、技术手册和客户支持记录。每当有新员工入职或者客户提出复杂问题时，都需要有人去翻阅这些资料，费时费力还容易出错。有没有一种方法，能让机器自动理解这些知识，并像专家一样回答各种问题呢？

这就是智能问答系统的魅力所在。通过将DeepSeek-R1-Distill-Qwen-1.5B这样的轻量级大模型与LangChain框架结合，我们可以构建一个既智能又高效的问答系统。这个系统不仅能理解自然语言问题，还能从海量文档中精准找到相关信息，生成准确可靠的答案。

DeepSeek-R1-Distill-Qwen-1.5B虽然只有15亿参数，但在保持强大理解能力的同时，大大降低了部署门槛。配合LangChain的检索增强生成（RAG）技术，即使是没有GPU的小型团队也能搭建属于自己的智能问答助手。

2. 环境准备与快速部署

2.1 系统要求

在开始之前，确保你的环境满足以下基本要求：

操作系统：Ubuntu 20.04/22.04 或 CentOS 7+
内存：至少16GB RAM
存储：至少20GB可用空间
Python：3.8或更高版本

如果你打算在本地运行模型，建议使用CPU版本；如果有GPU的话，效果会更好。

2.2 安装必要依赖

首先创建并激活一个虚拟环境：

python -m venv qa-env
source qa-env/bin/activate

然后安装核心依赖包：

pip install langchain langchain-community transformers sentence-transformers faiss-cpu

如果你是GPU用户，可以安装GPU版本的Faiss：

pip install faiss-gpu

2.3 模型下载与加载

DeepSeek-R1-Distill-Qwen-1.5B可以通过Hugging Face轻松获取：

from transformers import AutoTokenizer, AutoModelForCausalLM

# 加载模型和分词器
model_name = "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 设置pad_token以避免警告
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

第一次运行时会自动下载模型，大约需要6.7GB的存储空间。下载完成后，模型就可以在本地使用了。

3. LangChain集成核心步骤

3.1 文档加载与处理

智能问答系统的第一步是处理你的知识库文档。LangChain支持多种文档格式：

from langchain.document_loaders import DirectoryLoader, TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 加载文档
loader = DirectoryLoader('./knowledge_base/', glob="**/*.txt", loader_cls=TextLoader)
documents = loader.load()

# 分割文档为小块
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=200
)
docs = text_splitter.split_documents(documents)

3.2 向量化存储

为了让模型能够快速检索相关信息，我们需要将文本转换为向量并建立索引：

from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS

# 创建嵌入模型
embeddings = HuggingFaceEmbeddings(
    model_name="sentence-transformers/all-MiniLM-L6-v2"
)

# 创建向量存储
vectorstore = FAISS.from_documents(docs, embeddings)
vectorstore.save_local("faiss_index")

3.3 检索器设置

配置检索器来控制返回的相关文档数量和质量：

retriever = vectorstore.as_retriever(
    search_type="similarity",
    search_kwargs={"k": 5}
)

3.4 问答链构建

现在将所有的组件组合成完整的问答系统：

from langchain.chains import RetrievalQA
from langchain.llms import HuggingFacePipeline
from transformers import pipeline

# 创建文本生成管道
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    temperature=0.3,
    do_sample=True
)

# 创建LangChain可用的模型接口
llm = HuggingFacePipeline(pipeline=pipe)

# 构建问答链
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=retriever,
    return_source_documents=True
)

4. 实际应用示例

4.1 基础问答功能

让我们测试一下系统的基本问答能力：

# 提出问题
question = "我们产品的退货政策是什么？"
result = qa_chain({"query": question})

print(f"问题: {question}")
print(f"答案: {result['result']}")
print("来源文档:")
for doc in result['source_documents']:
    print(f"- {doc.metadata['source']}")

4.2 多轮对话支持

通过维护对话历史，系统可以处理更复杂的多轮问答：

from langchain.memory import ConversationBufferMemory

# 添加记忆功能
memory = ConversationBufferMemory(
    memory_key="chat_history",
    return_messages=True
)

# 创建带记忆的问答链
conversational_qa = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=retriever,
    memory=memory,
    return_source_documents=True
)

# 多轮对话示例
questions = [
    "你们有哪些支付方式？",
    "支持信用卡分期吗？",
    "分期的利息是多少？"
]

for q in questions:
    result = conversational_qa({"query": q})
    print(f"Q: {q}")
    print(f"A: {result['result'][:100]}...")  # 只显示前100字符
    print("---")

4.3 定制化提示模板

通过定制提示词来优化回答质量：

from langchain.prompts import PromptTemplate

custom_prompt = PromptTemplate(
    template="""基于以下上下文信息，请以专业客服的身份回答问题。如果不知道答案，就说不知道，不要编造信息。

上下文：{context}

问题：{question}
专业回答：""",
    input_variables=["context", "question"]
)

# 使用定制提示的问答链
qa_chain_custom = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=retriever,
    chain_type_kwargs={"prompt": custom_prompt},
    return_source_documents=True
)

5. 性能优化与实践建议

5.1 响应速度优化

对于实时问答场景，响应速度很重要：

# 使用更快的嵌入模型
fast_embeddings = HuggingFaceEmbeddings(
    model_name="sentence-transformers/paraphrase-albert-small-v2"
)

# 调整生成参数以提高速度
fast_pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=256,  # 减少生成长度
    temperature=0.1,     # 降低随机性
    do_sample=False      # 使用贪心搜索
)

5.2 质量提升技巧

提高回答准确性的几种方法：

# 1. 添加元数据过滤
retriever_with_filter = vectorstore.as_retriever(
    search_kwargs={"k": 3, "filter": {"category": "policy"}}
)

# 2. 使用混合搜索
from langchain.retrievers import BM25Retriever, EnsembleRetriever

bm25_retriever = BM25Retriever.from_documents(docs)
ensemble_retriever = EnsembleRetriever(
    retrievers=[retriever, bm25_retriever],
    weights=[0.7, 0.3]
)

# 3. 添加后处理验证
def validate_answer(question, answer, sources):
    # 简单的长度检查
    if len(answer) < 10:
        return "抱歉，我没有找到足够的信息来回答这个问题。"
    return answer

5.3 实际部署考虑

在生产环境中使用时：

# 添加缓存机制
from langchain.cache import InMemoryCache
import langchain
langchain.llm_cache = InMemoryCache()

# 设置超时和重试
from tenacity import retry, stop_after_attempt, wait_exponential

@retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=4, max=10))
def safe_qa_query(question):
    try:
        return qa_chain({"query": question})
    except Exception as e:
        return {"result": "系统暂时无法处理您的请求，请稍后再试。"}