项目名称: AI 童话编剧与绘本生成器

本阶段时间: 2026 年 6 月 8 日 — 2026 年 6 月 14 日(第 15 周)

一、引言

承接第六期多角色分镜、故事/出图双RAG、CosyVoice听书、提示词版本化落地成果,本周(第15周)团队四大模块同步攻坚:中文原生RAG知识库完整落地出图流程精细化优化+绘本PDF导出交付全站前端页面视觉与交互统一改造首页/完成页绘本资产可视化展示

四位成员分四大技术线并行迭代:

  1. 黄子祺:中文童话语料爬虫构建、jieba分词检索双轨RAG架构改造,打通中英文语料无缝切换链路;
  2. 蒋宇宸:出图任务进度可视化、双角色构图约束优化、磁盘资产自动清理、PDF绘本导出完整实现;
  3. 黄荣涵:全站统一导航栏重构、首页用户绘本轮播、完成页插图预览全前端交互升级;
  4. 李冰川:中文检索适配层解耦、RAG验收工具兼容中文语料、前后端接口联调兼容适配。

本期工作彻底解决前期英文跨语言RAG语义偏差、出图进度黑盒、成品无标准化导出、前端页面导航割裂四大核心痛点,完成故事文本、插图、音频、纸质PDF全形态交付闭环,为答辩阶段A/B对比实验、完整产品演示搭建稳定可验收技术底座。

二、黄子祺:中文RAG爬虫构建与中英文双轨检索升级

2.1 迭代背景

第六期采用「英文童话语料+中文关键词映射hint」RAG方案,虽可运行但存在三大短板:中英文语义错位、检索命中率波动大、答辩效果解释成本高,且模型偶尔混入英文词汇。因此本周搭建原生中文童话知识库,实现中英文语料可配置切换的双检索架构。

2.2 整体方案

  1. 合规中文爬虫流水线
    选用storynook.cn儿童童话站点作为数据源,封装crawl_zh_fairy_tales.py爬虫脚本,配置1s以上请求延迟控制访问频率,自动过滤短废文本,离线存储原文txt与清单manifest;配套build_knowledge_corpus_zh.py批量生成标准corpus_zh.jsonl语料库,统一对齐英文库KnowledgeRecord字段规范。
    单条语料自动提取theme_tags主题标签,内置童话、森林、公主等固定关键词词表,结合标题2-4字短语扩充标签,上限16个控制噪声,精准匹配用户创作场景。

  2. 检索层解耦重构
    新增tokenizer.py分词工具模块,实现检索逻辑语言自动分流:

  • 英文库:沿用原英文token提取+中文hint映射逻辑;
  • 中文库:基于jieba分词,优先将用户输入场景、主角作为高权重短语打分,无jieba环境自动降级双字词匹配;
    重写_score_record_zh打分函数,标题、标签短语权重远高于普通分词,大幅提升场景匹配精准度。
  1. 可配置运维体系
    在.env新增RAG_CORPUS_FILENAMERAG_CORPUS_LANGUAGE配置项,切换corpus.jsonl/corpus_zh.jsonl即可切换知识库,上层故事生成、RAG注入逻辑完全无需改动;语料加载、文本安全校验、日志埋点复用第六期成熟闭环,单条语料损坏自动跳过,不中断整体生成流程。

2.3 落地成果

当前中文语料库累计120条,英文库扩充至1651条;中文场景检索无跨语言损耗,/rag/preview接口可独立预览中文检索结果,离线benchmark脚本同步兼容中英文两套语料,形成完整可对比的RAG测试链路。同时完成前端全局顶栏统一注入改造,修复多页面导航断裂问题。

三、蒋宇宸:出图进度可视化、双角色构图优化与PDF导出交付

3.1 现存问题梳理

  1. 出图imaging阶段长期卡在80%固定进度,用户无法知晓当前绘制页码,等待体验差;
  2. 双角色分镜生成插图时配角易模糊、缺失,提示词缺少画面位置约束;
  3. 绘本生成完成后无标准化文件导出,仅支持网页在线阅读;
  4. 删除绘本后磁盘图片、角色参考图残留,长期占用存储空间。

3.2 核心实现

  1. 出图细粒度进度上报
    在SQLite任务表新增stage_message字段,封装分页进度回调函数,遍历每页插图生成时实时更新进度:80%-99%区间按当前页码动态计算百分比,文案展示「正在绘制第X/8页插图」;前端轮询读取进度文案,彻底解决80%进度黑盒问题。

  2. 双角色画面位置约束机制
    改造story_characters.py模块:

  • action_for_character函数为配角补全互动描述,避免复用主角动作;
  • apply_dual_character_layout强制双角色左右分栏,分别追加「画面左侧/右侧」空间描述,传递给Qwen绘图模型;
    优化后双角色同框完整清晰,不再出现配角缩小、丢失、轮廓模糊问题。
  1. 横版A4绘本PDF导出
    新增pdf_export.py导出脚本,采用左图右文绘本标准版式:封面整合标题、摘要与首图,内页每页左侧渲染对应生成插图、右侧展示分镜正文;文字超长自动续页,插图与分镜一一对应;前端完成页新增导出按钮,调用/api/v1/stories/{id}/export-pdf接口一键下载成品文件。

  2. 磁盘资产自动清理
    封装purge_story_image_assets清理函数,删除绘本、清空历史接口触发时,同步删除data/images/data/character_refs/目录图片,保留RAG语料与出图审计日志,兼顾磁盘运维与模型迭代数据留存。

3.3 链路闭环

用户创建绘本→任务分镜生成→分页进度实时上报→双角色结构化绘图→在线阅读页预览→完成页导出PDF→删除自动清理图片资产,完整覆盖从创作到归档全生命周期。

四、黄荣涵:前端全站体验优化,首页轮播与完成页插图可视化

4.1 改造目标

优化静态多页站点用户沉浸感,将用户生成绘本资产可视化展示,统一全站导航交互逻辑,补齐绘本成品预览能力。

4.2 功能实现

  1. 全站统一悬浮顶栏导航
    重构auth.js启动脚本,新增mountSiteNav全局导航注入方法,除登录、分享页外,所有页面自动加载首页同款导航栏,包含品牌入口、创作工坊、绘本库、家长中心等菜单;滚动时sticky贴顶,自动高亮当前页面路由,复用原有data-perm权限控制逻辑,无前端框架侵入、改动成本低。

  2. 首页用户绘本封面轮播
    后端新增GET /api/v1/stories/hero-images登录鉴权接口,读取用户已生成绘本首页插图,按更新时间取最新3张;首页静态页面登录后动态替换轮播图,无自有绘本时自动回退内置示例图,直观展示用户创作成果。

  3. 完成页插图预览体系
    改造done.html页面:顶部大图展示绘本封面(第一页插图),底部叠加标题、作者渐变文字;封面下方新增横向缩略图滚动条,标注对应页码,支持快速翻阅整本插图,用户无需进入阅读页即可预览全部画面。

4.3 交互价值

前端页面从「纯工具操作页面」升级为具备作品展示属性的创作平台,导航统一降低用户学习成本,作品可视化提升创作成就感,完善产品交互闭环。

五、李冰川:RAG验收体系兼容中文库,前后端联调适配

5.1 核心工作

  1. 提示词模板兼容双语料
    v5提示词模板无需修改,自动兼容中英文reference_material参考文本,通过language参数控制输出语言,规避英文语料直译、词汇混入问题;更新prompt文档、对比表格,补充中文RAG答辩填表模板。

  2. RAG验收工具适配中文检索
    改造/rag/status/rag/preview两大验收API,自动识别当前语料语言并返回分词、短语命中统计;离线rag_benchmark.py增加中文基准测试样例,可独立输出中英文检索命中率对比数据,无需启动大模型即可完成效果验收。

  3. 跨模块接口兼容联调
    协调黄子祺中文检索、蒋宇宸出图模块、黄荣涵前端页面三方接口规范,统一故事ID、分页、资源路径参数定义,解决中文检索返回标签、插图资源路径前后端不匹配问题,保障整套系统无兼容bug。

  4. 可观测日志完善
    扩展RAG检索日志字段,区分lang=zh/lang=en,打印分词数量、短语命中数、Top-K得分,便于开发阶段定位检索效果异常。

六、本周团队整体成果汇总

  1. RAG知识库完成双轨架构
    建成可一键切换中英文两套童话语料库,中文jieba分词检索解决跨语言语义偏差,爬虫+入库脚本支持无限扩充语料,配套零LLM消耗验收工具,答辩可直观开关RAG做效果对照。

  2. 插图生成体验与交付能力成型
    出图进度透明化、双角色画面构图稳定,新增行业标准绘本PDF导出功能,形成「文字-插图-文件」完整交付链路,解决项目缺少成品输出的短板。

  3. 前端全站交互统一、作品可视化
    全局导航消除页面割裂,首页、完成页展示用户原创绘本,多模态图文资产完整对用户可见,产品完整度大幅提升。

  4. 工程可运维、可观测能力强化
    磁盘资产自动清理、多维度日志埋点、配置项统一托管,所有模块开关、版本、效果指标均可量化,项目工程化程度满足实训答辩交付标准。

七、现存待优化与下一阶段规划

7.1 当前遗留优化点

  1. 中文语料规模仅120条,后续继续扩充爬虫抓取数量;
  2. 检索仍基于关键词匹配,计划引入向量Embedding+重排提升语义匹配精度;
  3. PDF导出暂不支持自定义尺寸、图文排版微调;
  4. TTS听书模式未与PDF、首页作品展示联动。

7.2 第八期迭代计划

  1. 向量检索模块开发,替换现有关键词检索,中英文库统一接入向量数据库;
  2. 角色一致性锁定Agent开发,全绘本统一角色五官、服饰画风;
  3. PDF导出排版功能打磨,支持自定义封面、文字字号;
  4. 听书联播与绘本库、PDF导出联动;
  5. 完整答辩A/B实验固化:RAG开关、提示词v4/v5、中英文语料三组对照测试。

八、成员个人博客链接

成员 个人主题 CSDN博客链接
黄子祺 中文RAG:语料爬取、jieba检索双轨架构 https://blog.csdn.net/2301_80232378/article/details/162129288
蒋宇宸 出图进度优化、双角色构图与绘本PDF导出 https://blog.csdn.net/yu_chen_xiang/article/details/162017015
黄荣涵 全站导航重构、首页轮播与完成页插图预览 https://blog.csdn.net/2503_94171936/article/details/162147868
李冰川 中文RAG验收体系、前后端接口联调适配 https://blog.csdn.net/yu_chen_xiang/article/details/162017015
Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐