第一部分:课程概述与产品生态(第1-2章)

1. 什么是Coze(扣子)?

  • 定义:字节跳动推出的AI Agent开发平台

  • 核心卖点零代码/低代码。无论是否会编程,都能像搭积木一样搭建基于大模型的AI应用。

  • 发布渠道:可发布到微信、飞书、抖音,或通过API/SDK集成到自有业务系统。

2. 为什么要学Coze?

  • 降低门槛:不懂编程也能做AI程序。

  • 提高效率:程序员用Coze可以少写重复代码,部分业务逻辑甚至自动生成。

  • 核心概念:大模型像一个“什么都懂但需要引导的超级大脑”。你问得越具体,回答就越靠谱(如“西红柿炒鸡蛋”的例子)。

3. 产品生态矩阵(重点区分)

产品 生活比喻 作用
开发平台 餐厅的菜谱研发部门 核心学习对象。设计智能体、工作流、编排逻辑。
扣子罗盘 餐厅的运营管理系统 监控流量、分析性能指标、评测模型效果、全链路可观测。
Eino框架 厨房基础设施(炉灶) 基于Go语言的底层AI开发框架,普通开发者无需深究。
扣子空间 顾客直接就餐/点餐 零代码AI办公助手,直接下命令(如“做个PPT”),全过程可视化。

4. 注册与付费

  • 注册方式:抖音扫码、手机号、飞书(不推荐)。

  • 付费模型:普通用户每天500个资源点(免费)。调用插件/大模型会扣点。整个课程学习下来预计消耗二三十元(充值少量即可)。


第二部分:智能体开发基础(第3章)——核心理论

1. 智能体(Bot)的三种模式(极其重要)

模式 生活比喻 特点 适用场景
单Agent(自主规划) 一个能干的总秘书 你给目标,它自己拆解步骤、调用工具、做决策。灵活性高 复杂、路径未知的任务(本课程主要采用此模式)。
单Agent(对话流) 严格按清单行事的助理 流程固定,引导用户一步步提供信息。确定性高,灵活性低 标准化客服、问卷调查、订餐预约。
多Agents模式 专家委员会(群聊) 多个Agent分工协作(如交通专家+美食专家+财务专家讨论)。 极其复杂的决策任务(如产品设计)。

2. 模型选择与工作原理(面试常问)

  • 支持模型:DeepSeek(推理强/性价比高)、豆包系列(中文优化/响应快)、通义千问(长文本)、文心一言(垂直领域)。

  • 工作原理四步走

    1. 数据准备(给学霸准备海量复习资料)。

    2. 模型训练(学霸做完形填空,预测被遮住的词,反向传播调参)。

    3. 模型推理(逐词接龙,生成回答)。

    4. 对齐与微调(告诉学霸要善良、有用、诚实,引入RLHF人类反馈强化学习)。

  • 关键参数

    • Temperature(温度):0~1。低值(0.1)输出确定、严谨;高值(0.9)输出随机、有创意。

    • 上下文轮数:保留历史对话的轮次(默认3轮)。

    • 最大回复长度:控制输出字数上限。

3. 提示词工程(Prompt Engineering)

  • 系统提示词(System Prompt) = 后台《员工培训手册》(定义身份、规则、边界)。

  • 用户提示词(User Prompt) = 顾客下的具体订单。

  • CO-STAR框架(优质提示词结构):

    • Context(背景):“你是电商客服...”

    • Objective(目标):“准确回答价格...”

    • Steps(步骤):“1.识别问题 2.检索知识库...”

    • Tone(语气):“口语化,使用‘亲~’...”

    • Audience(受众):“20-35岁年轻消费者...”

  • 优化技巧:角色要具体(不要只说“诗人”,要说“擅长七言绝句的才华横溢的诗人”),要设定限制(避免回答无关话题)。


第三部分:Coze核心资源系统(第4章)——三大组件

1. 插件(Plugin)——让AI长出手脚

  • 本质:调用外部API(如天气、地图、绘图)。

  • 分类

    • 扣资源点型:直接调用即扣费(如墨迹天气)。

    • 申请密钥型:需自行申请第三方API Key(如某些搜索插件)。

  • 使用:在智能体或工作流中添加节点,明确输入参数(如城市名)。

2. 知识库(Knowledge Base)——解决幻觉的“独家记忆”

  • 本质:上传私有文档(PDF/Word/Excel/URL抓取),让AI基于这些资料回答。

  • RAG(检索增强生成) 技术原理(面试重点):

    • 检索:用户提问后,先去知识库搜索最相关的片段。

    • 增强:将检索到的片段拼接进提示词。

    • 生成:大模型根据提示词+检索片段生成答案。

  • 分类:文本(文档)、表格(结构化数据)、照片(带描述的图片)。

3. 数据库(Database)——结构化“长期记忆”

  • 本质:类似NoSQL,支持增删改查(CRUD)。

  • 与知识库的区别(易混淆点)

    • 知识库是只读的“图书馆”(查资料)。

    • 数据库是可读写的“笔记本”(记录用户说了什么、做了什么,如健身记录)。

  • 固定字段:每条记录自带 idsys_platformuuidbstudio_create_time

  • 用途:记录对话历史、用户偏好,实现个性化回复。


第四部分:工作流开发(第5章)——最硬核的技术部分

工作流是Coze的灵魂,针对复杂任务实现自动化、可控的执行。

1. 工作流 vs 对话流

  • Workflow(工作流):任务导向,线性执行,用于标准化批处理(如导出报表)。

  • Chatflow(对话流):对话导向,网状逻辑,用于多轮开放聊天。

2. 核心节点系统详解(必须全部掌握)

A. 基础节点
  • 开始节点:定义输入参数(变量名、类型)。

  • 结束节点:定义输出(返回变量JSON,或直接返回文本)。

  • 大模型节点:配置模型、系统提示词、用户提示词,可设置结构化输出(JSON/Markdown/Text)

  • 插件节点:调用商店或自定义插件。

  • 工作流节点:在一个工作流中嵌套调用另一个已发布的工作流(子工作流)。

B. 业务逻辑节点
  • 选择器节点if-else条件分支(支持且/或逻辑)。

  • 意图识别节点:识别用户输入意图,分流到不同分支。

  • 循环节点:遍历数组或固定次数。常配合定时器(等待异步任务完成)使用。

  • 批处理节点并行处理数组中的大量数据(默认每批10个,最高200个),效率远高于循环。

  • 变量聚合节点:将多路分支的输出合并为一个变量,方便下游统一处理。

  • 代码节点(极其重要):

    • 支持Python(异步 async def)和JavaScript。

    • 限制:只能处理工作流传入的数据,不能访问外网(不能发HTTP请求)。

    • 应用场景:解析JSON、提取字段、字符串拼接、敏感词过滤。

    • 必须懂异步:为什么要异步?避免CPU空等I/O(类似烧水时不用干等,可以去洗衣服)。

C. 数据库节点
  • 新增、查询、更新、删除数据。支持自然语言或SQL。

D. 知识库节点
  • 写入、检索、删除知识库中的文档。

E. 多媒体节点
  • 图像生成:调用通义万相等插件。

  • 音视频处理:语音合成(TTS)、图生视频、剪映插件合成。


第五部分:应用开发与发布(第6章)

1. 应用是什么?

  • 应用 = 智能体(大脑)+ 用户界面(皮肤/前端)

2. UI组件分类

  • 展示组件:Text(文本)、Image(图片)、Markdown(富文本)、Audio(音频)、Video(视频)、Carousel(轮播图)、Lottie(动画)。

  • 输入组件:Button(按钮)、Form(表单)、Input(文本输入)、FileUpload(文件上传)、Switch(开关)。

3. 数据绑定(核心机制)

  • 设置常量:写死固定内容。

  • 引用变量{{变量名}} 动态绑定工作流的返回数据。

  • 事件配置:点击按钮 -> 触发“调用工作流” -> 将输入框的值传给工作流入参 -> 工作流返回结果 -> 渲染到Markdown或图片组件。


第六部分:API与SDK(第7章)——面向程序员

1. 三种令牌鉴权(必考概念)

  • 个人访问令牌(PAT)授权给应用,代表你本人,长期有效(最常用)。

  • OAuth访问令牌用户授权给应用,短期有效(如扫码登录)。

  • 服务访问令牌(SAT)应用自身的身份,长期有效(服务器间通信)。

2. 常用API接口

  • 查看空间列表、成员列表。

  • 查看智能体/应用列表及配置。

  • 发起对话/v3/chat):支持流式(打字机效果)和非流式。

  • 执行工作流/v1/workflow/run):支持同步和异步。

3. Python SDK使用

  • 安装:pip install cozepy(注意是cozepy不是coze)。

  • 初始化:Coze(auth=TokenAuth(token=...), base_url=COZE_CN_BASE_URL)

  • 调用工作流:coze.workflows.runs.create(workflow_id="...", parameters={...})

  • 调用智能体:构建Message列表,创建chat,轮询等待状态变更为COMPLETED,提取assistant回复。


第七部分:四个实战项目全解析(第8章)——从理论到落地

项目1:成语接龙

  • 目标:人机对战,AI先出题,玩家接龙,AI验证并回复。

  • 技术栈:智能体(纯提示词规则)+ Flask后端 + HTML前端。

  • SDK调用逻辑:后端接收用户输入 -> 调用智能体(传入上轮成语和用户新成语)-> 轮询获取AI回复 -> 返回前端。

  • 难点:限制不能重复使用成语,AI回复必须纯文本(不加标点)。

项目2:我的未来我做主(人生模拟器)

  • 目标:引导大学生选择考研/考公/就业,经历8轮随机事件(正面/中等/负面),体验人生。

  • 技术栈:纯智能体(提示词复杂)。

  • 提示词亮点

    • 要求AI每次生成1、2、3三个选项供用户选择。

    • 随机生成正面/中等/负面场景,随机触发积极/消极事件(如“电脑坏了资料丢失”提前结束游戏)。

    • 结局总结(根据所有选择复盘)。

项目3:历史老师(海报生成器)—— 工作流最复杂案例

  • 输入:历史主题(如“唐朝”)。

  • 输出:2张精美的历史知识海报图片。

  • 工作流节点逻辑(细致拆解)

    1. 代码节点(敏感词过滤):检查输入是否包含“特么的”等违禁词。

    2. 大模型节点(验证主题):判断输入是否与历史相关,返回true/false

    3. 查询数据库节点:查询history_topic表,看该主题是否已有缓存图片。

      • 若有缓存:直接跳到结束节点,返回图片地址(节省资源和时间)。

      • 若无缓存:进入后续生成流程。

    4. 大模型节点(生成结构化内容):根据主题生成4个子主题,包含namedescription。输出格式强制为JSON数组。

    5. 批处理节点:遍历4个子主题,并行处理。

      • 子流程内部:调用图像生成插件生成插图 -> 调用海报排版插件(叠加底图和文字)。

    6. 代码节点(数组转字符串):将生成的4张图片URL用逗号拼接成一个字符串。

    7. 新增数据库节点:将“主题”和“拼接的URL字符串”存入数据库(下次直接命中缓存)。

    8. 结束节点:返回图片URL列表。

  • 外部集成:对接阿里云OSS插件,将临时图片上传到自己的OSS,实现永久访问。

项目4:动物世界(视频生成器)—— 异步任务最佳实践

  • 输入:动物描述(如“大象喝水”)。

  • 输出:一段带有配乐和旁白/音效的10秒视频。

  • 工作流节点逻辑(细致拆解)

    1. 大模型节点(润色):将“大象”扩展成“象群在泥潭中打滚”等15字以内场景描述。

    2. 查询数据库缓存:查是否有现成视频,有则直接返回。

    3. 子工作流(生成视频)

      • 调用视频生成插件(如CogVideoX),传入Prompt。此插件异步,只返回task_id

      • 循环节点 + 定时器

        • 设置循环次数(如60次)。

        • 第一步:延时插件(等待3秒,给视频生成留时间)。

        • 第二步:查询视频任务插件(传入task_id查询状态)。

        • 第三步:代码节点:解析返回结果,判断status是否为成功。如果成功,提取video_urlbreak跳出循环。

    4. 生成音频节点:根据原始描述文字,调用TTS生成语音旁白。

    5. 音视频合并节点:调用剪映插件,将生成的视频和音频合并成一个带声音的视频文件。

    6. 对接阿里云OSS:将合并后的视频上传至OSS,获取永久链接。

    7. 新增数据库:缓存视频链接。

  • 关键难点:异步任务的轮询机制(循环+延时+条件判断),以及子工作流的封装复用。


总结:如果面试官问“你学到了什么”(深度版回答)

如果面试官问起,除了讲“会用了”,更要体现出架构思维问题解决能力

  1. 对AI应用架构的理解:我明白了现代AI应用不再是单纯调API,而是 “大模型 + 工具(插件)+ 数据(知识库/数据库)” 的三层架构。Coze通过可视化工作流将这三点完美串联。

  2. 工程化落地能力:通过“历史老师”和“动物世界”项目,我掌握了缓存设计(数据库减少重复生成,降低成本)、异步任务处理(轮询机制解决视频生成慢的问题)、批处理优化(并行处理提升效率)。这不是玩具代码,而是具备成本意识和性能意识的生产级方案。

  3. 提示词工程实战:我深刻体会到系统提示词对AI行为约束的确定性,以及如何利用CO-STAR框架写出高复用、高质量的Prompt。尤其是教会了AI结构化输出(JSON),方便后端解析。

  4. 全栈开发思维:我能独立完成从后端逻辑(工作流) 到前端界面(UI组件绑定) 再到外部系统集成(Python SDK + Flask/OSS) 的全链路开发,打通了AI与真实业务之间的鸿沟。

  5. 零代码/低代码趋势认知:Coze让我看到,未来程序员的核心价值将从“写CRUD”转向“定义业务规则、编排资源、优化成本和效果”,这是AI时代开发范式的巨大转变。

SDK 和 API 的区别

:既然你用了Coze的Python SDK,那你说说,SDK和API有什么区别?为什么有了API还要有SDK?

  1. 定义本质不同

    • API(应用程序编程接口)是一套通信协议和接口规范,定义了“你能问什么”和“返回什么格式”。它像一份菜谱,写了步骤和原料,但得你自己去采购、切菜、控制火候(手动拼URL、写Header、处理JSON序列化)。

    • SDK(软件开发工具包)是封装好的工具包。它像一份料理包预处理好了一切(食材切好、酱料配好),附带一份简易说明书。你只需要开火加热就行。

  2. 使用层面的区别

    • API调用:你需要手动处理HTTP请求(GET/POST)、鉴权Token放哪(Header)、错误码(404/500)、数据解析(手动取data字段)。语言无关,任何语言只要能发Http请求就能调。

    • SDK调用:只需要coze.workflows.run(workflow_id="...")SDK帮你封装了:鉴权、请求重试、JSON序列化/反序列化、异常类型转换。它是语言相关的(Python SDK只给Python用)。

  3. 开发效率对比(血泪教训)

    • API:写了20行代码,其中15行是在处理requests.post、异常捕获、JSON解析。

    • SDK:写了3行代码,全是核心业务逻辑。SDK把复杂的通信细节全藏起来了,让你专注业务。

  4. 两者关系

    • SDK 底层依赖 API。SDK是对API的高级封装。你可以把API看作是餐厅的传菜口(窗口),而SDK是专门为你服务的智能传菜机器人(帮你拿、帮你放好)。

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐