《COZE》超详细拆解与学习笔记
第一部分:课程概述与产品生态(第1-2章)
1. 什么是Coze(扣子)?
-
定义:字节跳动推出的AI Agent开发平台。
-
核心卖点:零代码/低代码。无论是否会编程,都能像搭积木一样搭建基于大模型的AI应用。
-
发布渠道:可发布到微信、飞书、抖音,或通过API/SDK集成到自有业务系统。
2. 为什么要学Coze?
-
降低门槛:不懂编程也能做AI程序。
-
提高效率:程序员用Coze可以少写重复代码,部分业务逻辑甚至自动生成。
-
核心概念:大模型像一个“什么都懂但需要引导的超级大脑”。你问得越具体,回答就越靠谱(如“西红柿炒鸡蛋”的例子)。
3. 产品生态矩阵(重点区分)
| 产品 | 生活比喻 | 作用 |
|---|---|---|
| 开发平台 | 餐厅的菜谱研发部门 | 核心学习对象。设计智能体、工作流、编排逻辑。 |
| 扣子罗盘 | 餐厅的运营管理系统 | 监控流量、分析性能指标、评测模型效果、全链路可观测。 |
| Eino框架 | 厨房基础设施(炉灶) | 基于Go语言的底层AI开发框架,普通开发者无需深究。 |
| 扣子空间 | 顾客直接就餐/点餐 | 零代码AI办公助手,直接下命令(如“做个PPT”),全过程可视化。 |
4. 注册与付费
-
注册方式:抖音扫码、手机号、飞书(不推荐)。
-
付费模型:普通用户每天500个资源点(免费)。调用插件/大模型会扣点。整个课程学习下来预计消耗二三十元(充值少量即可)。
第二部分:智能体开发基础(第3章)——核心理论
1. 智能体(Bot)的三种模式(极其重要)
| 模式 | 生活比喻 | 特点 | 适用场景 |
|---|---|---|---|
| 单Agent(自主规划) | 一个能干的总秘书 | 你给目标,它自己拆解步骤、调用工具、做决策。灵活性高。 | 复杂、路径未知的任务(本课程主要采用此模式)。 |
| 单Agent(对话流) | 严格按清单行事的助理 | 流程固定,引导用户一步步提供信息。确定性高,灵活性低。 | 标准化客服、问卷调查、订餐预约。 |
| 多Agents模式 | 专家委员会(群聊) | 多个Agent分工协作(如交通专家+美食专家+财务专家讨论)。 | 极其复杂的决策任务(如产品设计)。 |
2. 模型选择与工作原理(面试常问)
-
支持模型:DeepSeek(推理强/性价比高)、豆包系列(中文优化/响应快)、通义千问(长文本)、文心一言(垂直领域)。
-
工作原理四步走:
-
数据准备(给学霸准备海量复习资料)。
-
模型训练(学霸做完形填空,预测被遮住的词,反向传播调参)。
-
模型推理(逐词接龙,生成回答)。
-
对齐与微调(告诉学霸要善良、有用、诚实,引入RLHF人类反馈强化学习)。
-
-
关键参数:
-
Temperature(温度):0~1。低值(0.1)输出确定、严谨;高值(0.9)输出随机、有创意。
-
上下文轮数:保留历史对话的轮次(默认3轮)。
-
最大回复长度:控制输出字数上限。
-
3. 提示词工程(Prompt Engineering)
-
系统提示词(System Prompt) = 后台《员工培训手册》(定义身份、规则、边界)。
-
用户提示词(User Prompt) = 顾客下的具体订单。
-
CO-STAR框架(优质提示词结构):
-
Context(背景):“你是电商客服...”
-
Objective(目标):“准确回答价格...”
-
Steps(步骤):“1.识别问题 2.检索知识库...”
-
Tone(语气):“口语化,使用‘亲~’...”
-
Audience(受众):“20-35岁年轻消费者...”
-
-
优化技巧:角色要具体(不要只说“诗人”,要说“擅长七言绝句的才华横溢的诗人”),要设定限制(避免回答无关话题)。
第三部分:Coze核心资源系统(第4章)——三大组件
1. 插件(Plugin)——让AI长出手脚
-
本质:调用外部API(如天气、地图、绘图)。
-
分类:
-
扣资源点型:直接调用即扣费(如墨迹天气)。
-
申请密钥型:需自行申请第三方API Key(如某些搜索插件)。
-
-
使用:在智能体或工作流中添加节点,明确输入参数(如城市名)。
2. 知识库(Knowledge Base)——解决幻觉的“独家记忆”
-
本质:上传私有文档(PDF/Word/Excel/URL抓取),让AI基于这些资料回答。
-
RAG(检索增强生成) 技术原理(面试重点):
-
检索:用户提问后,先去知识库搜索最相关的片段。
-
增强:将检索到的片段拼接进提示词。
-
生成:大模型根据提示词+检索片段生成答案。
-
-
分类:文本(文档)、表格(结构化数据)、照片(带描述的图片)。
3. 数据库(Database)——结构化“长期记忆”
-
本质:类似NoSQL,支持增删改查(CRUD)。
-
与知识库的区别(易混淆点):
-
知识库是只读的“图书馆”(查资料)。
-
数据库是可读写的“笔记本”(记录用户说了什么、做了什么,如健身记录)。
-
-
固定字段:每条记录自带
id,sys_platform,uuid,bstudio_create_time。 -
用途:记录对话历史、用户偏好,实现个性化回复。
第四部分:工作流开发(第5章)——最硬核的技术部分
工作流是Coze的灵魂,针对复杂任务实现自动化、可控的执行。
1. 工作流 vs 对话流
-
Workflow(工作流):任务导向,线性执行,用于标准化批处理(如导出报表)。
-
Chatflow(对话流):对话导向,网状逻辑,用于多轮开放聊天。
2. 核心节点系统详解(必须全部掌握)
A. 基础节点
-
开始节点:定义输入参数(变量名、类型)。
-
结束节点:定义输出(返回变量JSON,或直接返回文本)。
-
大模型节点:配置模型、系统提示词、用户提示词,可设置结构化输出(JSON/Markdown/Text)。
-
插件节点:调用商店或自定义插件。
-
工作流节点:在一个工作流中嵌套调用另一个已发布的工作流(子工作流)。
B. 业务逻辑节点
-
选择器节点:
if-else条件分支(支持且/或逻辑)。 -
意图识别节点:识别用户输入意图,分流到不同分支。
-
循环节点:遍历数组或固定次数。常配合定时器(等待异步任务完成)使用。
-
批处理节点:并行处理数组中的大量数据(默认每批10个,最高200个),效率远高于循环。
-
变量聚合节点:将多路分支的输出合并为一个变量,方便下游统一处理。
-
代码节点(极其重要):
-
支持Python(异步
async def)和JavaScript。 -
限制:只能处理工作流传入的数据,不能访问外网(不能发HTTP请求)。
-
应用场景:解析JSON、提取字段、字符串拼接、敏感词过滤。
-
必须懂异步:为什么要异步?避免CPU空等I/O(类似烧水时不用干等,可以去洗衣服)。
-
C. 数据库节点
-
新增、查询、更新、删除数据。支持自然语言或SQL。
D. 知识库节点
-
写入、检索、删除知识库中的文档。
E. 多媒体节点
-
图像生成:调用通义万相等插件。
-
音视频处理:语音合成(TTS)、图生视频、剪映插件合成。
第五部分:应用开发与发布(第6章)
1. 应用是什么?
-
应用 = 智能体(大脑)+ 用户界面(皮肤/前端)。
2. UI组件分类
-
展示组件:Text(文本)、Image(图片)、Markdown(富文本)、Audio(音频)、Video(视频)、Carousel(轮播图)、Lottie(动画)。
-
输入组件:Button(按钮)、Form(表单)、Input(文本输入)、FileUpload(文件上传)、Switch(开关)。
3. 数据绑定(核心机制)
-
设置常量:写死固定内容。
-
引用变量:
{{变量名}}动态绑定工作流的返回数据。 -
事件配置:点击按钮 -> 触发“调用工作流” -> 将输入框的值传给工作流入参 -> 工作流返回结果 -> 渲染到Markdown或图片组件。
第六部分:API与SDK(第7章)——面向程序员
1. 三种令牌鉴权(必考概念)
-
个人访问令牌(PAT):你授权给应用,代表你本人,长期有效(最常用)。
-
OAuth访问令牌:用户授权给应用,短期有效(如扫码登录)。
-
服务访问令牌(SAT):应用自身的身份,长期有效(服务器间通信)。
2. 常用API接口
-
查看空间列表、成员列表。
-
查看智能体/应用列表及配置。
-
发起对话(
/v3/chat):支持流式(打字机效果)和非流式。 -
执行工作流(
/v1/workflow/run):支持同步和异步。
3. Python SDK使用
-
安装:
pip install cozepy(注意是cozepy不是coze)。 -
初始化:
Coze(auth=TokenAuth(token=...), base_url=COZE_CN_BASE_URL)。 -
调用工作流:
coze.workflows.runs.create(workflow_id="...", parameters={...})。 -
调用智能体:构建
Message列表,创建chat,轮询等待状态变更为COMPLETED,提取assistant回复。
第七部分:四个实战项目全解析(第8章)——从理论到落地
项目1:成语接龙
-
目标:人机对战,AI先出题,玩家接龙,AI验证并回复。
-
技术栈:智能体(纯提示词规则)+ Flask后端 + HTML前端。
-
SDK调用逻辑:后端接收用户输入 -> 调用智能体(传入上轮成语和用户新成语)-> 轮询获取AI回复 -> 返回前端。
-
难点:限制不能重复使用成语,AI回复必须纯文本(不加标点)。
项目2:我的未来我做主(人生模拟器)
-
目标:引导大学生选择考研/考公/就业,经历8轮随机事件(正面/中等/负面),体验人生。
-
技术栈:纯智能体(提示词复杂)。
-
提示词亮点:
-
要求AI每次生成1、2、3三个选项供用户选择。
-
随机生成正面/中等/负面场景,随机触发积极/消极事件(如“电脑坏了资料丢失”提前结束游戏)。
-
结局总结(根据所有选择复盘)。
-
项目3:历史老师(海报生成器)—— 工作流最复杂案例
-
输入:历史主题(如“唐朝”)。
-
输出:2张精美的历史知识海报图片。
-
工作流节点逻辑(细致拆解):
-
代码节点(敏感词过滤):检查输入是否包含“特么的”等违禁词。
-
大模型节点(验证主题):判断输入是否与历史相关,返回
true/false。 -
查询数据库节点:查询
history_topic表,看该主题是否已有缓存图片。-
若有缓存:直接跳到结束节点,返回图片地址(节省资源和时间)。
-
若无缓存:进入后续生成流程。
-
-
大模型节点(生成结构化内容):根据主题生成4个子主题,包含
name和description。输出格式强制为JSON数组。 -
批处理节点:遍历4个子主题,并行处理。
-
子流程内部:调用图像生成插件生成插图 -> 调用海报排版插件(叠加底图和文字)。
-
-
代码节点(数组转字符串):将生成的4张图片URL用逗号拼接成一个字符串。
-
新增数据库节点:将“主题”和“拼接的URL字符串”存入数据库(下次直接命中缓存)。
-
结束节点:返回图片URL列表。
-
-
外部集成:对接阿里云OSS插件,将临时图片上传到自己的OSS,实现永久访问。
项目4:动物世界(视频生成器)—— 异步任务最佳实践
-
输入:动物描述(如“大象喝水”)。
-
输出:一段带有配乐和旁白/音效的10秒视频。
-
工作流节点逻辑(细致拆解):
-
大模型节点(润色):将“大象”扩展成“象群在泥潭中打滚”等15字以内场景描述。
-
查询数据库缓存:查是否有现成视频,有则直接返回。
-
子工作流(生成视频):
-
调用视频生成插件(如CogVideoX),传入Prompt。此插件异步,只返回
task_id。 -
循环节点 + 定时器:
-
设置循环次数(如60次)。
-
第一步:延时插件(等待3秒,给视频生成留时间)。
-
第二步:查询视频任务插件(传入
task_id查询状态)。 -
第三步:代码节点:解析返回结果,判断
status是否为成功。如果成功,提取video_url并break跳出循环。
-
-
-
生成音频节点:根据原始描述文字,调用TTS生成语音旁白。
-
音视频合并节点:调用剪映插件,将生成的视频和音频合并成一个带声音的视频文件。
-
对接阿里云OSS:将合并后的视频上传至OSS,获取永久链接。
-
新增数据库:缓存视频链接。
-
-
关键难点:异步任务的轮询机制(循环+延时+条件判断),以及子工作流的封装复用。
总结:如果面试官问“你学到了什么”(深度版回答)
如果面试官问起,除了讲“会用了”,更要体现出架构思维和问题解决能力:
-
对AI应用架构的理解:我明白了现代AI应用不再是单纯调API,而是 “大模型 + 工具(插件)+ 数据(知识库/数据库)” 的三层架构。Coze通过可视化工作流将这三点完美串联。
-
工程化落地能力:通过“历史老师”和“动物世界”项目,我掌握了缓存设计(数据库减少重复生成,降低成本)、异步任务处理(轮询机制解决视频生成慢的问题)、批处理优化(并行处理提升效率)。这不是玩具代码,而是具备成本意识和性能意识的生产级方案。
-
提示词工程实战:我深刻体会到系统提示词对AI行为约束的确定性,以及如何利用CO-STAR框架写出高复用、高质量的Prompt。尤其是教会了AI结构化输出(JSON),方便后端解析。
-
全栈开发思维:我能独立完成从后端逻辑(工作流) 到前端界面(UI组件绑定) 再到外部系统集成(Python SDK + Flask/OSS) 的全链路开发,打通了AI与真实业务之间的鸿沟。
-
零代码/低代码趋势认知:Coze让我看到,未来程序员的核心价值将从“写CRUD”转向“定义业务规则、编排资源、优化成本和效果”,这是AI时代开发范式的巨大转变。
SDK 和 API 的区别
:既然你用了Coze的Python SDK,那你说说,SDK和API有什么区别?为什么有了API还要有SDK?
-
定义本质不同:
-
API(应用程序编程接口)是一套通信协议和接口规范,定义了“你能问什么”和“返回什么格式”。它像一份菜谱,写了步骤和原料,但得你自己去采购、切菜、控制火候(手动拼URL、写Header、处理JSON序列化)。
-
SDK(软件开发工具包)是封装好的工具包。它像一份料理包,预处理好了一切(食材切好、酱料配好),附带一份简易说明书。你只需要开火加热就行。
-
-
使用层面的区别
-
API调用:你需要手动处理HTTP请求(GET/POST)、鉴权Token放哪(Header)、错误码(404/500)、数据解析(手动取
data字段)。语言无关,任何语言只要能发Http请求就能调。 -
SDK调用:只需要
coze.workflows.run(workflow_id="...")。SDK帮你封装了:鉴权、请求重试、JSON序列化/反序列化、异常类型转换。它是语言相关的(Python SDK只给Python用)。
-
-
开发效率对比(血泪教训):
-
用API:写了20行代码,其中15行是在处理
requests.post、异常捕获、JSON解析。 -
用SDK:写了3行代码,全是核心业务逻辑。SDK把复杂的通信细节全藏起来了,让你专注业务。
-
-
两者关系:
-
SDK 底层依赖 API。SDK是对API的高级封装。你可以把API看作是餐厅的传菜口(窗口),而SDK是专门为你服务的智能传菜机器人(帮你拿、帮你放好)。
-
更多推荐
所有评论(0)