基于 AI agent 的童话编剧与绘本生成器(七)团队汇总:中文RAG、出图交付、前端全链路体验升级
项目名称: AI 童话编剧与绘本生成器
本阶段时间: 2026 年 6 月 8 日 — 2026 年 6 月 14 日(第 15 周)
一、引言
承接第六期多角色分镜、故事/出图双RAG、CosyVoice听书、提示词版本化落地成果,本周(第15周)团队四大模块同步攻坚:中文原生RAG知识库完整落地、出图流程精细化优化+绘本PDF导出交付、全站前端页面视觉与交互统一改造、首页/完成页绘本资产可视化展示。
四位成员分四大技术线并行迭代:
- 黄子祺:中文童话语料爬虫构建、jieba分词检索双轨RAG架构改造,打通中英文语料无缝切换链路;
- 蒋宇宸:出图任务进度可视化、双角色构图约束优化、磁盘资产自动清理、PDF绘本导出完整实现;
- 黄荣涵:全站统一导航栏重构、首页用户绘本轮播、完成页插图预览全前端交互升级;
- 李冰川:中文检索适配层解耦、RAG验收工具兼容中文语料、前后端接口联调兼容适配。
本期工作彻底解决前期英文跨语言RAG语义偏差、出图进度黑盒、成品无标准化导出、前端页面导航割裂四大核心痛点,完成故事文本、插图、音频、纸质PDF全形态交付闭环,为答辩阶段A/B对比实验、完整产品演示搭建稳定可验收技术底座。
二、黄子祺:中文RAG爬虫构建与中英文双轨检索升级
2.1 迭代背景
第六期采用「英文童话语料+中文关键词映射hint」RAG方案,虽可运行但存在三大短板:中英文语义错位、检索命中率波动大、答辩效果解释成本高,且模型偶尔混入英文词汇。因此本周搭建原生中文童话知识库,实现中英文语料可配置切换的双检索架构。
2.2 整体方案
-
合规中文爬虫流水线
选用storynook.cn儿童童话站点作为数据源,封装crawl_zh_fairy_tales.py爬虫脚本,配置1s以上请求延迟控制访问频率,自动过滤短废文本,离线存储原文txt与清单manifest;配套build_knowledge_corpus_zh.py批量生成标准corpus_zh.jsonl语料库,统一对齐英文库KnowledgeRecord字段规范。
单条语料自动提取theme_tags主题标签,内置童话、森林、公主等固定关键词词表,结合标题2-4字短语扩充标签,上限16个控制噪声,精准匹配用户创作场景。 -
检索层解耦重构
新增tokenizer.py分词工具模块,实现检索逻辑语言自动分流:
- 英文库:沿用原英文token提取+中文hint映射逻辑;
- 中文库:基于jieba分词,优先将用户输入场景、主角作为高权重短语打分,无jieba环境自动降级双字词匹配;
重写_score_record_zh打分函数,标题、标签短语权重远高于普通分词,大幅提升场景匹配精准度。
- 可配置运维体系
在.env新增RAG_CORPUS_FILENAME、RAG_CORPUS_LANGUAGE配置项,切换corpus.jsonl/corpus_zh.jsonl即可切换知识库,上层故事生成、RAG注入逻辑完全无需改动;语料加载、文本安全校验、日志埋点复用第六期成熟闭环,单条语料损坏自动跳过,不中断整体生成流程。
2.3 落地成果
当前中文语料库累计120条,英文库扩充至1651条;中文场景检索无跨语言损耗,/rag/preview接口可独立预览中文检索结果,离线benchmark脚本同步兼容中英文两套语料,形成完整可对比的RAG测试链路。同时完成前端全局顶栏统一注入改造,修复多页面导航断裂问题。
三、蒋宇宸:出图进度可视化、双角色构图优化与PDF导出交付
3.1 现存问题梳理
- 出图imaging阶段长期卡在80%固定进度,用户无法知晓当前绘制页码,等待体验差;
- 双角色分镜生成插图时配角易模糊、缺失,提示词缺少画面位置约束;
- 绘本生成完成后无标准化文件导出,仅支持网页在线阅读;
- 删除绘本后磁盘图片、角色参考图残留,长期占用存储空间。
3.2 核心实现
-
出图细粒度进度上报
在SQLite任务表新增stage_message字段,封装分页进度回调函数,遍历每页插图生成时实时更新进度:80%-99%区间按当前页码动态计算百分比,文案展示「正在绘制第X/8页插图」;前端轮询读取进度文案,彻底解决80%进度黑盒问题。 -
双角色画面位置约束机制
改造story_characters.py模块:
action_for_character函数为配角补全互动描述,避免复用主角动作;apply_dual_character_layout强制双角色左右分栏,分别追加「画面左侧/右侧」空间描述,传递给Qwen绘图模型;
优化后双角色同框完整清晰,不再出现配角缩小、丢失、轮廓模糊问题。
-
横版A4绘本PDF导出
新增pdf_export.py导出脚本,采用左图右文绘本标准版式:封面整合标题、摘要与首图,内页每页左侧渲染对应生成插图、右侧展示分镜正文;文字超长自动续页,插图与分镜一一对应;前端完成页新增导出按钮,调用/api/v1/stories/{id}/export-pdf接口一键下载成品文件。 -
磁盘资产自动清理
封装purge_story_image_assets清理函数,删除绘本、清空历史接口触发时,同步删除data/images/、data/character_refs/目录图片,保留RAG语料与出图审计日志,兼顾磁盘运维与模型迭代数据留存。
3.3 链路闭环
用户创建绘本→任务分镜生成→分页进度实时上报→双角色结构化绘图→在线阅读页预览→完成页导出PDF→删除自动清理图片资产,完整覆盖从创作到归档全生命周期。
四、黄荣涵:前端全站体验优化,首页轮播与完成页插图可视化
4.1 改造目标
优化静态多页站点用户沉浸感,将用户生成绘本资产可视化展示,统一全站导航交互逻辑,补齐绘本成品预览能力。
4.2 功能实现
-
全站统一悬浮顶栏导航
重构auth.js启动脚本,新增mountSiteNav全局导航注入方法,除登录、分享页外,所有页面自动加载首页同款导航栏,包含品牌入口、创作工坊、绘本库、家长中心等菜单;滚动时sticky贴顶,自动高亮当前页面路由,复用原有data-perm权限控制逻辑,无前端框架侵入、改动成本低。 -
首页用户绘本封面轮播
后端新增GET /api/v1/stories/hero-images登录鉴权接口,读取用户已生成绘本首页插图,按更新时间取最新3张;首页静态页面登录后动态替换轮播图,无自有绘本时自动回退内置示例图,直观展示用户创作成果。 -
完成页插图预览体系
改造done.html页面:顶部大图展示绘本封面(第一页插图),底部叠加标题、作者渐变文字;封面下方新增横向缩略图滚动条,标注对应页码,支持快速翻阅整本插图,用户无需进入阅读页即可预览全部画面。
4.3 交互价值
前端页面从「纯工具操作页面」升级为具备作品展示属性的创作平台,导航统一降低用户学习成本,作品可视化提升创作成就感,完善产品交互闭环。
五、李冰川:RAG验收体系兼容中文库,前后端联调适配
5.1 核心工作
-
提示词模板兼容双语料
v5提示词模板无需修改,自动兼容中英文reference_material参考文本,通过language参数控制输出语言,规避英文语料直译、词汇混入问题;更新prompt文档、对比表格,补充中文RAG答辩填表模板。 -
RAG验收工具适配中文检索
改造/rag/status、/rag/preview两大验收API,自动识别当前语料语言并返回分词、短语命中统计;离线rag_benchmark.py增加中文基准测试样例,可独立输出中英文检索命中率对比数据,无需启动大模型即可完成效果验收。 -
跨模块接口兼容联调
协调黄子祺中文检索、蒋宇宸出图模块、黄荣涵前端页面三方接口规范,统一故事ID、分页、资源路径参数定义,解决中文检索返回标签、插图资源路径前后端不匹配问题,保障整套系统无兼容bug。 -
可观测日志完善
扩展RAG检索日志字段,区分lang=zh/lang=en,打印分词数量、短语命中数、Top-K得分,便于开发阶段定位检索效果异常。
六、本周团队整体成果汇总
-
RAG知识库完成双轨架构
建成可一键切换中英文两套童话语料库,中文jieba分词检索解决跨语言语义偏差,爬虫+入库脚本支持无限扩充语料,配套零LLM消耗验收工具,答辩可直观开关RAG做效果对照。 -
插图生成体验与交付能力成型
出图进度透明化、双角色画面构图稳定,新增行业标准绘本PDF导出功能,形成「文字-插图-文件」完整交付链路,解决项目缺少成品输出的短板。 -
前端全站交互统一、作品可视化
全局导航消除页面割裂,首页、完成页展示用户原创绘本,多模态图文资产完整对用户可见,产品完整度大幅提升。 -
工程可运维、可观测能力强化
磁盘资产自动清理、多维度日志埋点、配置项统一托管,所有模块开关、版本、效果指标均可量化,项目工程化程度满足实训答辩交付标准。
七、现存待优化与下一阶段规划
7.1 当前遗留优化点
- 中文语料规模仅120条,后续继续扩充爬虫抓取数量;
- 检索仍基于关键词匹配,计划引入向量Embedding+重排提升语义匹配精度;
- PDF导出暂不支持自定义尺寸、图文排版微调;
- TTS听书模式未与PDF、首页作品展示联动。
7.2 第八期迭代计划
- 向量检索模块开发,替换现有关键词检索,中英文库统一接入向量数据库;
- 角色一致性锁定Agent开发,全绘本统一角色五官、服饰画风;
- PDF导出排版功能打磨,支持自定义封面、文字字号;
- 听书联播与绘本库、PDF导出联动;
- 完整答辩A/B实验固化:RAG开关、提示词v4/v5、中英文语料三组对照测试。
八、成员个人博客链接
| 成员 | 个人主题 | CSDN博客链接 |
|---|---|---|
| 黄子祺 | 中文RAG:语料爬取、jieba检索双轨架构 | https://blog.csdn.net/2301_80232378/article/details/162129288 |
| 蒋宇宸 | 出图进度优化、双角色构图与绘本PDF导出 | https://blog.csdn.net/yu_chen_xiang/article/details/162017015 |
| 黄荣涵 | 全站导航重构、首页轮播与完成页插图预览 | https://blog.csdn.net/2503_94171936/article/details/162147868 |
| 李冰川 | 中文RAG验收体系、前后端接口联调适配 | https://blog.csdn.net/yu_chen_xiang/article/details/162017015 |
更多推荐

所有评论(0)