DeepSeek 聊了一年多，300 多个会话，我搞了个工具把它们变成知识库了

爱编程的喵汪人

185人浏览 · 2026-06-15 19:16:48

爱编程的喵汪人 · 2026-06-15 19:16:48 发布

DeepSeek 出来就开始用了。写到今天，左边侧边栏一拉，三百多个会话在那挂着。

有时候想找个之前聊过的内容——“黄金和比特币到底啥关系”、“之前问的那个看房清单”——得在搜索框里碰运气。搜不到就重新问一遍，DeepSeek 也不嫌弃，每次都跟第一次似的耐心回答。

但总觉得亏。有些回答质量挺高的，聊完就沉了，下次想用又得从头来。

所以写了个工具，把整个过程串起来了。

做的事情很简单：把会话拉下来 → 自动分类 → 同类合并成文章 → 删掉原来的。

具体聊聊怎么搞的。

第一步：拉下来

DeepSeek 的 API 不需要申请，登录后在浏览器 F12 的 Network 面板里就能拿到 token。

脚本就干一件事：分页拉会话列表，然后逐条拉消息内容。每个会话存一个 Markdown 文件。


while (true) {
  const resp = await fetch(`/api/v0/chat_session/fetch_page?...`)
  const data = await resp.json()
  const items = data?.data?.biz_data?.chat_sessions || []
  if (items.length === 0) break
  sessions.push(...items)
}

文件名带 ID 前缀，防止重名覆盖。拉过一次的会跳过，第二次只拉新的。

第二步：分类

写了个脚本按关键词归档。比如标题带"Vue"、“组件”、“路由"的扔到"编程开发/Vue 生态”，带"黄金"、“基金"的扔到"理财投资/投资产品”。

分了 8 个大类，每个下面还有子类。300 个文件跑下来只有几个没分对，够用了。

node scripts/categorize-chats.mjs

第三步：合并成文章

这是最花时间的。同类会话合并成一篇知识文章，比如：

3 个健身会话 → 《居家健身训练指南》
4 个黄金投资会话 → 《黄金投资完全指南》
63 个 JavaScript 代码片段 → 《JavaScript 实用代码笔记》

合并的时候把 AI 的思考过程去掉，个人信息去掉，只留用户问题和回答。做成通用指南。

每篇产出等用户确认，确认后才删源文件。最终 300 多个会话变成了 21 篇文章。

第四步：删掉

本地文件直接 rm。网页上的需要逐个删除——通过浏览器 MCP 找到会话，点三点菜单，点删除，确认。置顶的跳过。

整个过程被包装成了一个 Claude Code Skill，在项目目录下执行 /deepseek-knowledge-pipeline 就能跑。项目地址：

https://github.com/R2h1/deepseek-knowledge-pipeline

需要 Node.js 18+，clone 下来配一下 token 就能用。

最后说个感受。写这些知识文章的时候，把不同时间、不同角度问的同一个问题整合在一起，能看到 DeepSeek 的答案其实挺一致的。有些之前觉得讲得一般的地方，合起来看反而更完整了。算是意外收获。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

ChatGPT 5.5 辅助测试用例生成实践：从支付回调接口到可验证的研发流程

AI Agent技术社区

2026年如何用Gemini镜像站辅助学术写作？

把Gemini融入学术写作流程，能从文献处理、初稿打磨到格式校对等环节释放大量时间。对于国内研究者，选择像RskAi这样无需复杂网络配置、集成多款先进模型的镜像服务，让技术直接服务研究思维。想一站式体验不同模型在学术辅助上的侧重，可以访问，从一个小任务开始，逐步建立自己的AI辅助写作方法。【本文完】

AI Agent技术社区

AI 中转站：企业大模型应用中容易被忽视的安全关键点

2026年3月，墨西哥三人初创团队遭遇AI密钥盗用危机，团队月度常规Google Cloud费用仅180美元，攻击者盗取Gemini关联API密钥后，48小时疯狂调用模型接口，产生82314.44美元（约56.8万元）账单，费用暴涨近455倍，远超企业账户流动资金，团队濒临破产。此次事件叠加多重隐患：API密钥权限自动扩张、平台无异常调用风控告警、密钥缺少分级隔离，且企业全量AI模型调用流量，缺少