Spring AI项目实战：基于Spring Boot与DeepSeek构建高可用智能客服系统

通过Spring AI集成DeepSeek，我们确实比较快地构建了一个可用的智能客服核心，意图识别的准确率相比老系统有显著提升。Spring AI的抽象让我们不必过于关心底层模型的具体调用方式，开发体验比较顺畅。当然，这个方案也有其边界。它严重依赖外部模型的性能和稳定性。混合模型策略：简单问题用本地小模型（通过Spring AI集成ONNX Runtime运行的轻量模型）快速响应，复杂问题再fal

零域789

905人浏览 · 2026-02-22 10:29:05

零域789 · 2026-02-22 10:29:05 发布

最近在做一个智能客服系统的升级项目，之前的老系统用的是规则匹配，用户问得稍微复杂点就“听不懂”了，维护规则库也让人头大。正好Spring AI这个项目越来越成熟，就决定用它结合DeepSeek的模型来试试水，目标是打造一个响应快、听得懂、能聊下去的智能客服。整个过程踩了不少坑，也积累了一些心得，记录下来和大家分享。

智能客服系统架构示意图

1. 为什么选择 Spring AI + DeepSeek？

在做技术选型时，我们主要考虑了三个方向：直接用TensorFlow/PyTorch自研、用成熟的NLP平台API、以及Spring AI这类集成框架。

自研模型：虽然灵活度高，但对我们Java团队来说，从数据标注、模型训练到服务部署，链路太长，维护成本高，且难以快速响应业务变化。
通用NLP平台API：调用简单，但按量计费，长期来看成本不可控，且数据出域存在合规风险。
Spring AI + 特定模型：最终我们选择了这个组合。Spring AI提供了一套标准的、Spring风格的API（如ChatClient），让我们可以像调用本地服务一样使用AI能力，底层模型可以灵活切换（比如从DeepSeek换到其他兼容API的模型）。选择DeepSeek主要是看中它对中文语义的理解和生成能力相当不错，而且提供了稳定、性价比高的API服务，非常适合处理中文客服场景。

2. 核心实现：三层架构与对话管理

我们的系统核心分为三层：接入层、AI服务层和对话管理层。

接入层就是普通的Spring Boot Controller，负责接收用户请求。这里重点做了两件事：限流和异步响应。

限流：用了Bucket4j，防止突发流量打垮服务或触发DeepSeek的API调用限制。
异步响应：客服场景用户能容忍短暂等待，但不能阻塞线程。我们用CompletableFuture包装AI调用，立即返回一个“正在思考”的提示，等AI结果出来后再通过WebSocket或轮询推给前端。

@RestController
@RequestMapping("/api/chat")
public class ChatController {
    @Autowired
    private ChatService chatService;
    @Autowired
 private RateLimiterService rateLimiterService; // Bucket4j封装

    @PostMapping
    public CompletableFuture<ResponseEntity<ChatResponse>> chat(@RequestBody ChatRequest request, HttpServletRequest servletRequest) {
        // 1. 限流检查
        if (!rateLimiterService.tryConsume(servletRequest.getRemoteAddr())) {
            return CompletableFuture.completedFuture(ResponseEntity.status(429).body(ChatResponse.ofError("请求过于频繁，请稍后再试")));
        }

        // 2. 异步处理对话
        return chatService.processAsync(request.getSessionId(), request.getMessage())
                .thenApply(response -> ResponseEntity.ok(response))
                .exceptionally(e -> ResponseEntity.status(500).body(ChatResponse.ofError("系统繁忙，请稍后重试")));
    }
}

AI服务层的核心是封装ChatClient。Spring AI的ChatClient接口是门面，我们只需要配置好DeepSeek的API地址和密钥。

@Service
public class DeepSeekChatService implements ChatService {
    @Autowired
    private ChatClient chatClient;
    @Autowired
    private ConversationCache cache; // 用Caffeine缓存对话上下文

    @Override
    public CompletableFuture<ChatResponse> processAsync(String sessionId, String userMessage) {
        return CompletableFuture.supplyAsync(() -> {
            try {
                // 1. 从缓存获取历史对话
                List<Message> conversationHistory = cache.get(sessionId);
                conversationHistory.add(new UserMessage(userMessage));

                // 2. 调用AI
                ChatResponse aiResponse = chatClient.call(new Prompt(conversationHistory));

                // 3. 更新缓存（只保留最近N轮，防止上下文过长）
                conversationHistory.add(new AssistantMessage(aiResponse.getContent()));
                cache.put(sessionId, trimConversationHistory(conversationHistory));

                // 4. 返回结果（可在这里加入敏感词过滤等后处理）
                return ChatResponse.ofSuccess(filterSensitiveWords(aiResponse.getContent()));
            } catch (Exception e) {
                log.error("AI处理失败， sessionId: {}", sessionId, e);
                // 这里可以加入降级策略，例如返回预设话术
                return ChatResponse.ofError("AI助手暂时无法响应，请稍后再试。");
            }
        });
    }
}

对话管理层是大脑，我们设计了一个简单的对话状态机。客服不是一问一答，而是有流程的。比如用户要“退货”，状态会从INIT（初始）进入QUERY_ORDER（查询订单）状态，客服AI会主动询问订单号。

我们用一个ConversationState类来封装状态，并用Redis或Caffeine缓存起来。状态机的转移逻辑可以放在Service里，根据AI的回复意图（可以通过在Prompt里要求模型返回结构化意图，或者用另一个小的分类模型来识别）和当前状态，决定下一个状态和回复。

// 简化的状态枚举和状态机逻辑
public enum DialogState {
    INIT, GREETING, QUERY_ORDER, HANDLE_COMPLAINT, CONFIRM_RESOLUTION, END;
}

@Service
public class DialogStateMachine {
    public DialogState nextState(DialogState currentState, String userIntent) {
        switch (currentState) {
            case INIT:
                if ("greeting".equals(userIntent)) return DialogState.GREETING;
                if ("refund".equals(userIntent)) return DialogState.QUERY_ORDER;
                break;
            case QUERY_ORDER:
                if ("provide_order_no".equals(userIntent)) return DialogState.HANDLE_COMPLAINT;
                // ... 其他转移逻辑
        }
        // 默认回到初始或结束状态
        return DialogState.END;
    }
}

3. 生产环境必须考虑的几点

系统能跑起来只是第一步，要上线还得过好几关。

压力测试：我们用JMeter模拟了用户并发提问。关键参数是设置合理的思考时间（Think Time），因为用户打字需要时间。测试目标是保证在预期QPS（比如100）下，P99响应时间在3秒以内。Spring AI的ChatClient本身是阻塞的，所以我们的异步封装和线程池配置就很重要。

模型热更新与降级：我们不能保证DeepSeek API永远稳定。所以配置了熔断器（如Resilience4j），当连续失败次数达到阈值就熔断，直接走降级逻辑（返回预设回复或转人工）。同时，我们在配置中心（如Nacos）里放了备用API的密钥和地址，必要时可以快速切换。

敏感信息过滤：AI可能会生成一些不合规的内容。我们在AI回复返回前，会经过一个敏感词过滤组件。这个组件内置了一个基础词库，同时会动态从管理后台拉取最新的敏感词规则进行匹配和替换。

日志与监控：所有AI请求和回复都必须脱敏后再打印日志。我们用了AOP切面，在ChatClient.call方法前后拦截，将请求和响应中的手机号、身份证号等信息替换为*。同时，关键指标如调用耗时、成功率、各意图分布等都通过Micrometer暴露给Prometheus进行监控。

4. 避坑指南：都是实战踩出来的

API调用频率限制：DeepSeek等公有API都有频率限制。除了在网关和业务层做限流，更关键的是缓存。对于常见、标准的问题（如“营业时间”、“联系方式”），答案可以直接缓存，根本不用问AI。我们用Caffeine做本地缓存，Guava Cache也可以。
对话超时与上下文管理：用户可能聊到一半走了。我们为每个会话sessionId设置了30分钟的超时，超时后缓存内的对话历史会被清除，下次用户再来视为新会话。同时，上下文历史不能无限增长（会消耗大量Token且可能影响效果），我们只保留最近10轮对话。
异常处理的粒度：网络超时、API限额耗尽、模型返回内容格式错误……每种异常都要有不同的处理策略和告警级别。我们定义了一个统一的AiException异常体系，并在@ControllerAdvice中做精细化的处理，确保用户体验和问题可追溯。

系统监控仪表盘示意图

5. 总结与展望

通过Spring AI集成DeepSeek，我们确实比较快地构建了一个可用的智能客服核心，意图识别的准确率相比老系统有显著提升。Spring AI的抽象让我们不必过于关心底层模型的具体调用方式，开发体验比较顺畅。

当然，这个方案也有其边界。它严重依赖外部模型的性能和稳定性。未来，我们考虑在几个方向做深化：

混合模型策略：简单问题用本地小模型（通过Spring AI集成ONNX Runtime运行的轻量模型）快速响应，复杂问题再fallback到DeepSeek大模型，平衡成本和体验。
知识库增强：将产品文档、FAQ做成向量知识库（用Spring AI的VectorStore）。AI生成回答时，先检索相关知识片段作为参考，让回答更精准。
多模态交互：这可能是下一个挑战。如何优化“语音+文本”的客服场景？比如，用户上传一张问题商品的图片，或者直接发送语音。这可能需要：
- 前端进行语音识别（STT）转成文本再发送，或者后端集成语音识别服务。
- 对于图片，可以先用CV模型识别物体和问题，将识别结果作为文本描述连同用户问题一起送给AI模型。
- Spring AI目前对多模态的支持还在演进中，可能需要我们自己封装多模态模型的调用，或者等待社区更成熟的方案。

这次项目让我感受到，AI工程化和传统后端开发既有相通之处（比如高可用、缓存、限流），又有其特殊性（如提示词工程、上下文管理、模型评估）。希望这篇笔记对想尝试Spring AI的朋友有所帮助。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

让 Codex 桌面版拥抱 DeepSeek-V4：协议桥接与模型网关接入实践

4SAPI 提供了一套标准的 Chat Completions 接口，完全兼容 DeepSeek V4 Pro 等模型，使用时只需将 base URL 和密钥替换为平台分配的值即可。这样一来，既保留了桥接层的协议转换能力，又获得了网关带来的额外弹性。这样的模型网关，则进一步提升了链路的稳定性和密钥管理的便捷度，尤其适合团队或对服务可用性有更高要求的场景。│Codex 桌面版│ ──────────

AI Agent技术社区

别再迷信“突破限制”：Gemini 3.5-flash 边界测试实战复盘

AI Agent技术社区

Hermes Agent 上下文压缩机制深度剖析：长对话场景下的有损压缩策略

大语言模型的上下文窗口是有限资源。在长对话场景中，Token 数量不可避免地逼近模型的上下文长度上限，此时系统面临两难选择：截断历史导致信息丢失，或超出限制导致 API 报错。Hermes Agent 的上下文压缩引擎（`ContextCompressor`）实现了一套三阶段有损压缩算法，在保持对话连续性的同时将 Token 消耗控制在安全阈值内。本文从源码层面详细分析该机制的算法设计、边界处理、