OpenClaw 接入商汤 SenseNova:打造多模态个人 AI 助手

商汤 SenseNova 平台目前公测免费,提供多模态对话模型(6.7 Flash-Lite)和图像生成模型(U1 Fast)。本文将手把手教你如何在 OpenClaw 中接入商汤模型,搭建一个"能看、能画"的个人 AI 助手。

一、商汤 SenseNova 平台简介

在这里插入图片描述

在这里插入图片描述

SenseNova 是商汤科技推出的大模型 API 服务平台,目前公测期间免费使用,每个模型,每 5 小时 1500 次调用额度。什么概念?因为是每个模型单独计算额度,也就是说 5 小时的最大调用次数为 4500 次,平均每分钟 15 次。每 4 秒调用 1 次,对于个人和办公而言,绰绰有余。

平台提供以下模型:

模型 ID 类型 能力 上下文
sensenova-6.7-flash-lite 多模态对话 文字 + 图片输入,文字输出,支持推理模式 256K
sensenova-u1-fast 图像生成 文字输入,图像输出,专精信息图/海报生成 -
deepseek-v4-flash 文本对话 纯文本输入输出 256K

本文聚焦于 6.7 Flash-Lite(多模态对话)和 U1 Fast(图像生成)的组合使用,两者互补,覆盖"看图 + 聊天 + 出图"的完整场景。

平台地址:https://platform.sensenova.cn

二、环境准备

在这里插入图片描述

2.1 注册并获取 API Key

  1. 访问 SenseNova 平台 注册账号
  2. 进入控制台 → API Key 管理 → 创建 API Key
  3. 记录你的 API Key:
export SENSENOVA_API_KEY="sk-your-api-key-here"

2.2 验证 API 连通性

先确认 API 可用:

# 列出可用模型
curl -s "https://token.sensenova.cn/v1/models" \
  -H "Authorization: Bearer $SENSENOVA_API_KEY" | python3 -m json.tool

在这里插入图片描述

返回结果中应包含 sensenova-6.7-flash-litesensenova-u1-fast

2.3 安装 OpenClaw(已安装的同学可跳过)

未安装的同学,可以先安装 OpenClaw,命令如下。

# 需要 Node.js 22.16+ 或 24+
npm install -g openclaw@latest

# 初始化配置(会引导你完成 Gateway、工作区、Channel 等设置)
openclaw onboard --install-daemon

按照交互流程需要配置一下接口地址 、密钥 以及模型 ID。具体配置请参考下表:

配置项 (Prompt) 填充值 (Value) 描述
Model/auth provider Custom Provider 选择自定义供应方
API Base URL https://token.sensenova.cn/v1 商汤 OpenAI 兼容接口地址
Authentication Paste API key now 选择此项后则会要求你输入 API Key
API Key sk-xxxx... 填入你获取的商汤 API Key
Endpoint compatibility OpenAI-compatible 必须选择此项以确保协议对齐
Model ID sensenova-6.7-flash-lite 指定具体的对话模型 ID
Endpoint ID sensenova 此项为模型提供方,建议设为 sensenova 作为内部索引
Support image input? Yes 该模型是多模态模型,则选择 YES 即可,自动将 imageModel 视觉模型一并设置

注意:有一些 AI 模型自动配置的话,会配置地址为 https://api.sensenova.cn/v1,注意子域名是 token.sensenova.cn

在这里插入图片描述
配置完成后,还会有一个交互项,是否重启服务,选择 Restart 配置即可生效,否则配置无法生效。
在这里插入图片描述

2.4 验证连接

进入 web 页面,直接输入问题测试一下,如果成功了,说明配置成功;若异常,请检查 BASE URL 或者 key 是否配置异常。

在这里插入图片描述

三、图像理解

6.7 Flash-Lite 支持图片输入,可以直接"看懂"图片内容。

在这里插入图片描述
打开 OpenClaw Web,直接输入这张图片,然后我向他询问了:“这是什么景点”?

在这里插入图片描述
这张图确实我在某书上找到的一个图片。

在这里插入图片描述

说实话,测完这个场景,商汤这颗 SenseNova 6.7 Flash-Lite 的表现真的有点“懂行”得过分了。它不只是在机械地看图说话,感觉它脑子里是真有“货”。

几个让我印象特别深的“人味儿”瞬间:

  1. 它比导游还懂“梗”:测灵隐寺“福鼎”的时候,它不光精准报出了位置,连“摸鼎=摸顶=步步登高”这种民间祈福的小心思都给拆解出来了。这种能把视觉信息跟咱中国传统文化“对上暗号”的能力,真的非常惊艳,像个很有文化底蕴的随身老向导。
  2. 细节抓取非常“显微镜”:这模型看图特别细,连人群里谁在举手机拍照、谁在伸手祈福这些瞬时的小动作都没漏掉。它不是泛泛地说“有一群人”,而是能看懂这群人到底在干嘛,这种对生活场景的洞察力,确实比很多只会识图的模型高出一大截。
  3. 复杂环境下“不犯迷糊”:不管是国宴上那一排穿得差不多的西装大佬,还是寺庙里人挤人的复杂背景,它都能从头发丝、领带颜色或者坐姿这些小细节里,把身份给“揪”出来,而且分析得头头是道,逻辑闭环做得极好。

总的来说,在目前这些免费公测的模型里,商汤这款 6.7 Flash-Lite 的“细腻程度”绝对是第一梯队的。它不只是能看清,它是真的能看懂。


四、深入 U1:不只是"画图"的模型

说到 SenseNova U1,很多人第一反应是"又一个文生图模型"。但实际上,U1 的野心远不止于此。它是商汤从底层架构重新设计的原生理解生成统一模型,和市面上那些"拼积木"式的多模态方案完全不是一个路子。

4.1 NEO-Unify 架构:一个全栈搞定

在这里插入图片描述

传统的多模态模型,本质上是"三个外包干一件事":

U1 NEO-Unify 架构

图像 + 文本
统一输入

原生 MoT 骨干
(像素-文本统一建模)

图像 / 文本
统一输出

传统拼接式架构

图像输入

Visual Encoder
(视觉编码器)

Adapter
(适配器)

LLM
(语言模型)

VAE Decoder
(图像解码器)

图像输出

💡 通俗理解:传统架构就像你找了一个翻译(Adapter)在"看图的人"和"写字的人"之间来回传话,信息每倒手一次就丢一点。U1 直接让一个人同时看图写字,省掉了中间商赚差价。

U1 的 NEO-Unify 架构做了三件事:

  • 🔗 干掉 Visual Encoder 和 VAE:不需要独立的视觉编码器来"翻译"图片,也不需要 VAE 来"解码"图像。像素和文本在同一个表征空间里直接交互。
  • 🧠 原生 Mixture-of-Transformers(MoT)骨干:理解流和生成流共享同一个自注意力机制,互相参照、深度协同。
  • 🎯 端到端建模:从输入到输出一气呵成,信息零损耗。

4.2 U1 的"信息图杀手锏"

U1 最让我惊艳的能力不是画猫画狗,而是信息图(Infographic)生成

直接用 curl 测试一把:

curl https://token.sensenova.cn/v1/images/generations \
  -H "Authorization: Bearer {your key}" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "sensenova-u1-fast",
    "prompt": "这张信息图整体采用极具亲和力的可爱卡通风格,色调以柔和的粉色、淡黄色和浅蓝色为主。全图在排版上具有极强的对称性与统一感,从左到右等宽排列着三个独立的圆角矩形区块。\n【核心排版规则】\n- 全图包含左、中、等宽的右三个区块,这三个区块必须拥有完全统一的外观:每个区块都必须被一个独立的、厚度仅为 1px 的精致粉色细边框圆角矩形完全包裹。\n- 严禁任何内容超出这三个细边框,每个区块的内部元素(文字和图标)都必须与各自的 1px 细边框保持一致且舒适的安全间距,绝不能顶格或穿透边框。\n以下是三个区块的详细结构与全部文字内容:\n1. 左侧区块(1px 细边框圆角矩形内):\n在区块内部最上方是主标题“信息图生成专家”,下方紧跟副标题:“帮助用户将复杂信息转化为清晰易懂的视觉呈现”。标题下方由上至下排列三项核心能力(每项均配有可爱的拟人化图标):\n  - 1. 联网搜索功能:查询最新网络信息(图标为一个带有猫耳、拿着放大镜的拟人化地球)。\n  - 2. 网页内容读取功能:获取指定网页的详细内容(图标为一个戴着眼镜、正在阅读的拟人化纸卷)。\n  - 3. 信息图生成功能:根据文字描述生成专业的信息图(图标为一个手持柱状图的可爱机器人)。\n在左侧区块的最底部,包含一个黄色便利贴样式的卡片(右上角有一只探出纸箱的猫咪图标),文本内容:“专家提示:熟练结合搜索与读取工具,最大化提升视觉数据的信息密度。”\n2. 中间区块(1px 细边框圆角矩形内):\n区块内部上方是居中的标题“严格工作流程”。整个区域通过一条带有节点的垂直轴线,串联起三个水平排列的工作步骤,每个步骤文字放置在圆角标签中:\n  - 步骤一:分析需求(左侧图标为粉色的大脑与一个带有笑脸的彩色齿轮)。\n  - 步骤二:收集信息(左侧图标为一个拟人化的漏斗,正在过滤星星和圆点)。\n  - 步骤三:生成图片(左侧图标为带有猫爪印的调色板、画笔以及一个饼状图)。\n3. 右侧区块(1px 细边框圆角矩形内):\n区块内部上方是居中的标题“重要规则与核心目标”。上方部分为“重要规则”列表(包含四条规则,每条规则左侧配有图标):\n  - 规则一:每次请求都是全新任务(图标为一个猫咪造型的甜甜圈)。\n  - 规则二:优先使用辅助工具收集信息(图标为一个带有星星装饰的可爱手提包)。\n  - 规则三:保留用户原始数据(图标为一个带有花朵旋钮的拟人化保险箱)。\n  - 规则四:使用用户语言生成内容(图标为一块玉石质感的云纹装饰和一支铅笔)。\n下方部分为“核心目标”卡片(背景为淡紫色,右侧配有一个礼物盒图标),文本内容:“消除混乱,重构逻辑,实现高维维度视觉数据合成。”",
    "size": "2752x1536",
    "n": 1
  }'

生成的图片:

在这里插入图片描述

API 上的 sensenova-u1-fast 版本,经过了 step 蒸馏和 CFG 蒸馏优化,专门针对信息图场景做了调教。简单说就是:画海报、出图表、排信息,它是专业的。

U1 vs 主流模型横向对比
维度 SenseNova U1 DALL-E 3 / GPT Image Midjourney
信息图能力 ⭐⭐⭐⭐⭐ 专精,高密度排版 ⭐⭐⭐⭐ 强,文字精准 ⭐⭐ 偏艺术,排版弱
文字渲染 商业级精度 行业顶尖 容易出错
开源/私有部署 ✅ Apache 2.0 开源 ❌ 闭源 ❌ 闭源
免费额度 公测免费(每 5h / 1500 次) 付费 付费
模型参数 8B(轻量高效) 未公开 未公开
核心优势 信息图 + 开源 + 低成本 指令遵循 + 文字精准 极致艺术美感
开源版本一览

在这里插入图片描述

模型 总参数 / 激活参数 骨干类型 适用场景
SenseNova-U1-8B-MoT 18B(理解 ~8B + 生成 ~8B) 密集主干 通用理解 + 生成(Base 模型)
SenseNova-U1-8B-MoT-SFT 18B 密集主干 通用理解 + 生成(SFT 微调版)
SenseNova-U1-8B-MoT-Infographic 18B 密集主干 信息图专精
SenseNova-U1-8B-MoT-LoRAs LoRA 权重 8-step 快速推理(配合 Base 使用)
SenseNova-U1-8B-MoT-8step-preview 18B 密集主干 8 步快速生成(预览版)
SenseNova-U1-A3B-MoT 39B(激活 ~3B) MoE 主干 高效推理部署(Base 模型)
SenseNova-U1-A3B-MoT-SFT 39B(激活 ~3B) MoE 主干 高效推理部署(SFT 微调版)

💡 参数命名说明8B-MoT 中的"8B"指的是 ~8B 理解参数 + ~8B 生成参数,HF 上显示的总参数约 18B。A3B-MoT 的"A3B"指激活参数约 3B(MoE 架构),HF 上显示总参数约 39B。详见 parameter breakdown

📢 开源地址:github.com/OpenSenseNova/SenseNova-U1,Apache 2.0 协议,有 GPU 的同学可以自己部署。

4.3 支持的图像尺寸

U1 Fast(sensenova-u1-fast)支持 11 种固定分辨率,均为 2K 级别,默认值为 2752x1536(16:9):

尺寸 比例 说明
2048x2048 1:1 正方形,适合插画、头像
2752x1536 16:9 默认值,横版宽屏海报
1536x2752 9:16 竖版宽屏海报、手机壁纸
2496x1664 3:2 横版经典比例
1664x2496 2:3 竖版经典比例
2368x1760 4:3 横版传统比例
1760x2368 3:4 竖版传统比例
2272x1824 5:4 横版,接近正方
1824x2272 4:5 竖版,适合社交媒体
3072x1376 21:9 超宽横幅、Banner
1344x3136 9:21 超长竖图、长图海报

📌 数据来源:商汤开放平台官方文档

4.4 Prompt 最佳实践:信息图场景

U1 对 Prompt 的结构化程度极其敏感。写 Prompt 不是"你帮我画个好看的海报"就完事了,得像给设计师下 Brief 一样具体。

推荐结构主题 + 核心元素 + 布局逻辑 + 风格/配色

⚠️ 反面教材

帮我画一张AI发展趋势的海报,要好看的

正确姿势

设计一张现代科技风格的信息图海报。
主题:2026年AI发展趋势。
布局:水平三列网格结构。
核心元素:左列放3个关键数据指标(配图标),中列放趋势时间线,右列放4个发展方向。
配色:深蓝背景,白色主文字,蓝色和青绿色渐变点缀。
字体风格:标题用粗体无衬线字体,正文用现代等宽字体。

💡 进阶技巧 — Prompt 增强:先让 6.7 Flash-Lite 帮你丰富 Prompt,再喂给 U1

这是一张极具现代科技与未来感的信息图海报(Infographic Poster),整体采用水平三列网格结构(Horizontal Three-Column Grid),排版布局精准且对齐。
【核心排版与视觉约束】
全图背景为深邃的赛博朋克深蓝底色(Cyberpunk Deep Blue),带有微弱的几何矩阵纹理。主文字统一使用纯白色,通过粗体无衬线字体(Bold Sans-serif)和现代等宽字体(Modern Monospace)区分层级。核心视觉元素(图标、时间线、方向块)均使用Neon霓虹青绿(Teal)到电光蓝(Electric Blue)的高级渐变流光(Gradient Flow)进行点缀。
以下是严格对齐的三栏详细结构:
1. 左列(等宽垂直区块):关键数据指标 (3 KEY METRICS)
由上至下平行排列着三个独立的细边框矩形卡片,每个卡片内部左侧为霓虹渐变图标,右侧为数据与中文描述(使用粗体标题与等宽正文):
卡片一(标题:算力总爆发,图标为带有闪电的超算芯片矩阵):
数据占位: 预计 2026年 全球AI算力需求将增长 25倍(基于 2023年基数)。
卡片二(标题:大模型参数突破,图标为多层堆叠的神经元网络):
数据占位: 超万亿参数模型成为行业标配,模型智能水平显著提升。
卡片三(标题:AIAgent 应用普及,图标为多手控制多工具的拟人化机器人):
数据占位: 超过 60% 的通用软件将深度集成全自动化 AI Agents 助手。
2. 中列(等宽垂直区块):趋势时间线 (TREND TIMELINE)
该区域中间贯穿一条从底部向上流动的电光蓝渐变垂直时间轴线,轴线上均匀排列着三个发光的青绿色节点(Nodes),每个节点向两侧引出带有年份标签和中文文字描述的发光面板:
节点一(2023-2024):大模型元年
描述文字(英文): FOUNDATIONAL MODELS & MULTIMODAL
节点二(2025-2026):代理与推理
描述文字(中文): AI AGENTS & COGNITIVE REASONING
节点三(2026-2027):通用初现
描述文字(中文): ARTIFICIAL GENERAL INTELLIGENCE (AGI) PROTOTYPES
3. 右列(等宽垂直区块):发展方向 (4 DIRECTIONS)
由上至下平行排列着四个等高的细边框圆角矩形,每个矩形背景带有微弱的青绿到蓝渐变,内部左侧为图标,右侧为中文标题与英文方向(使用粗体标题与等宽正文):
方向一(图标为DNA双螺旋与药物分子):AI + 医疗
标题与正文(英文): AI-Powered Drug Discovery & Genomics
方向二(图标为机械臂与全自动化工厂):AI + 制造
标题与正文(中文): Autonomous Manufacturing & Full Automation
方向三(图标为卫星与全球物联网):AI + 基础设施
标题与正文(英文): Next-Gen AI Infrastructure & IoT
方向四(图标为多模态屏幕与艺术调色板):AI + 创意
标题与正文(中文): Interleaved Multimodal Content Generation & Art

五、接入 SenseNova-Skills:官方 OpenClaw Skill 套件

自己封装 Skill 当然可以,但其实商汤官方已经提供了一整套 OpenClaw Skill —— SenseNova-Skills,开箱即用,覆盖图像生成、PPT 制作、数据分析、深度研究四大场景。

5.1 SenseNova-Skills 能力矩阵

能力类别 核心 Skill 说明
🎨 图像 & 信息图 sn-infographicsn-image-base 信息图生成、图像识别、Prompt 增强
📊 PPT 生成 sn-ppt-entrysn-ppt-standard 从 Brief 到完整 PPT 的自动化流程
📈 数据分析 sn-da-excel-workflow 多文件 Excel 数据清洗 & 可视化
🔬 深度研究 sn-deep-research 自动规划 → 搜索 → 综合报告

5.2 一键安装

# 克隆官方仓库
git clone https://github.com/OpenSenseNova/SenseNova-Skills.git --depth=1

# 将所有 Skill 拷贝到 OpenClaw 的 skills 目录
mkdir -p ~/.openclaw/skills
cp -r SenseNova-Skills/skills/* ~/.openclaw/skills/

# 重启 OpenClaw 使 Skill 生效
openclaw gateway restart

安装完成后,通过 openclaw skills list 确认 Skill 已被识别:

openclaw skills list
# 应该能看到 sn-infographic、sn-image-base、sn-ppt-entry 等

5.3 配置环境变量

~/.openclaw 下编辑 .env 文件(没有则创建即可):

SN_BASE_URL="https://token.sensenova.cn/v1"
SN_API_KEY="sk-xxx"

配置好后,直接在 OpenClaw 对话中说"帮我生成一张关于 Go 性能优化的信息图",sn-infographic Skill 会自动接管,完成 Prompt 增强 → U1 出图的完整流程。

在这里插入图片描述
在这里插入图片描述

可以看到,一句话 Prompt 虽然能出图,但效果只能算"能看"——布局随机、信息密度低、视觉层级模糊。这其实是所有文生图模型的通病:模型不是不行,是你没告诉它该怎么画

要让 U1 真正发挥实力,关键在于 Prompt 的结构化设计。具体来说,一个高质量的信息图 Prompt 至少要包含三个维度:

  1. 全局视觉规则:锁定配色、字体、背景纹理等"不变量",让模型有统一的视觉底座。
  2. 排版硬约束:明确几列布局、容器边框、对齐方式,杜绝模型"自由发挥"。
  3. 逐区块内容描述:精确到每个区块的标题、图标、文字内容,做到"所写即所得"。

下面这个完善后的 Prompt 就是按这个思路设计的,效果天差地别👇

这是一张专门针对“Go 语言性能优化(Go Performance Optimization)”的现代科技风高信息度视觉海报。整体排版严格采用水平三列网格结构(Horizontal Three-Column Grid),左右等宽,边界紧凑。

【全局视觉规则】
- 背景:深邃的科技感暗黑/深蓝底色(Deep Tech Blue),带有微弱的微服务拓扑或网格几何纹理。
- 文字:标题和关键技术指标使用纯白色粗体无衬线字体(Bold Sans-serif);详细描述使用现代等宽字体(Modern Monospace)以彰显代码和技术质感。
- 色调点缀:所有的技术图标、时间线轴和边框均使用 Go 语言标志性的“地中海蓝(Gopher Blue)”到“霓虹青绿(Teal)”的高级渐变流光。
- 容器硬约束:左、中、右三列必须被三个独立的、厚度仅为 1px 的粉蓝/青绿细边框圆角矩形完全包裹,内容严禁溢出。

以下是三列对齐的详细技术结构和文字内容:

1. 左列(1px 细边框圆角矩形内):性能三大观测指标 (3 PERFORMANCE METRICS)
由上至下平行排列着三个独立的卡片,每个卡片左侧为发光的科技感图标,右侧为硬核技术指标:
  - 指标一(标题:内存分配逃逸率,图标为带向上箭头的堆栈矩阵):
    - 描述:通过优化逃逸分析(Escape Analysis),将对象高频分配在栈(Stack)而非堆(Heap)上,减少 GC 压力。
  - 指标二(标题:Goroutine 调度延迟,图标为带有时间钟表的 G-M-P 调度模型):
    - 描述:合理控制并发粒度,监控 Syscall 阻塞,将 P(Processor)的本地队列上下文切换延迟降至微秒级。
  - 指标三(标题:GC 停顿时间(STW),图标为被斩断的带锯齿的红色时间线):
    - 描述:利用三色标记清扫算法特性,优化指针写屏障(Write Barrier),控制 Stop-the-world 处于亚毫秒级别。

2. 中列(1px 细边框圆角矩形内):性能调优黄金工作流 (OPTIMIZATION WORKFLOW)
区块内部上方是居中的标题“Go 调优标准流程”。中间贯穿一条从底部向上流动的蓝色渐变垂直轴线,轴线上均匀排列着三个发光的青绿色节点(Nodes),每个节点引出一个步骤标签:
  - 步骤一:基准测试与剖析 (Benchmark & Pprof)
    - 描述:通过 runtime/pprof 和 go test -bench 抓取 CPU 和 Heap 的 profile 火焰图,精准定位 CPU 密集型性能瓶颈。
  - 步骤二:算法调整与逃逸优化 (Refactor & Escape)
    - 描述:针对热点代码复用切片(Slice)与字典(Map)空间,利用 sync.Pool 建立对象复用池,减少内存频繁申请。
  - 步骤三:并发对齐与编译器压榨 (Concurrency & Inline)
    - 描述:调整 GOMAXPROCS 契合硬件核心,利用编译器内联(Inlining)和边界检查消除(BCE)榨干最后一点 CPU 性能。

3. 右列(1px 细边框圆角矩形内):四大核心优化方向 (4 OPTIMIZATION DIRECTIONS)
由上至下平行排列着四个等高的细边框矩形,代表落地实践方向,左侧配有精致图标:
  - 方向一(图标为内存池与连通管道):内存深度复用 (Memory Reuse)
    - 描述:严禁在热点循环中动态扩容 Slice,提前预估 capacity。
  - 方向二(图标为并行的多线程轨道):并发无锁化设计 (Lockless Concurrency)
    - 描述:优先使用 Channel 传递数据,或利用 sync/atomic 原子操作替代沉重的 sync.Mutex 互斥锁。
  - 方向三(图标为网格序列化过滤器):零拷贝与 I/O 优化 (Zero-Copy I/O)
    - 描述:在网络与文件读写中重用 []byte 缓冲区,深度使用 strings.Builder 和 byte-oriented 接口避免隐式转换。
  - 方向四:[USER_CUSTOM_DIRECTION_GOES_HERE]

在这里插入图片描述

对比前面一句话 Prompt 的"随缘出图",结构化 Prompt 的效果提升肉眼可见——布局规整、信息分层清晰、视觉风格统一。这也验证了一个朴素的道理:在文生图领域,Prompt 工程的投入产出比远高于换模型。花 10 分钟打磨 Prompt 结构,比纠结用哪个模型有效得多。

💡 实战建议:把你打磨好的结构化 Prompt 存成模板,下次只需替换"内容描述"部分,就能批量生成同系列风格的信息图。


六、连续生图实战:一个对话画完「小兔子四季历险记」绘本

上面我们已经掌握了 U1 的单张出图能力,但实际工作中,你往往需要的不是"一张图",而是一套风格统一、画面连贯的组图。比如画一组食谱教程、一套产品使用指南,或者一个图文绘本故事。

sn-infographic Skill 的真正威力在于:你可以在同一个对话中连续发出多条生图指令,Skill 会自动完成 Prompt 增强 → U1 出图的完整流程,而且上下文天然共享,风格自动对齐

💬 输入 Prompt
生成小兔子四季故事

生成故事文案与四季分镜

SubAgent 1
春之苏醒 (U1 出图)

SubAgent 2
夏之欢歌 (U1 出图)

SubAgent 3
秋之收获 (U1 出图)

SubAgent 4
冬之安眠 (U1 出图)

🖼️ 春季成品

🖼️ 夏季成品

🖼️ 秋季成品

🖼️ 冬季成品

下面用一个绘本创作场景演示:在一个对话中连续生成 4 张「小兔子四季历险记」绘本插图——从春到冬,每一步画面风格统一、角色连贯。全程在 OpenClaw 对话框中完成,不用写一行代码。

💬 只需要在 OpenClaw 中发送:

请帮我生成一个图文绘本故事,主角是一只可爱的兔子,故事讲述它经历四季变化。

可以看到,OpenClaw 接到指令后,会先自动思考并拆解出四个分镜的提示词(Prompt),随后自动触发 4 次 SenseNova U1 的生图任务,实现一条龙的图文生成。
在这里插入图片描述

等待片刻后,四张连贯的绘本插图就自动生成完毕了!我们来欣赏一下这组由 SenseNova U1 带来的「小兔子四季历险记」。从成图可以看到,四张图片不仅将四季特征完美展现,而且整体画风保持了高度的统一:

🌸 春之苏醒: 小兔子在万物复苏的草地上醒来,画面充满了生机盎然的绿色与柔和的春光。
在这里插入图片描述

🍉 夏之欢歌: 炎炎夏日,小兔子在清凉的小溪边快乐奔跑,夏日色彩明快热烈。
在这里插入图片描述

🍁 秋之收获: 金黄色的秋天,小兔子抱着胡萝卜,画面洋溢着丰收的喜悦和温暖的色调。
在这里插入图片描述

❄️ 冬之安眠: 大雪纷飞的冬日,小兔子在温暖的雪地中,画面静谧而祥和。
在这里插入图片描述

💡 小结:借助 OpenClaw 与 SenseNova U1 的结合,原本繁琐的提示词构思、多任务并发调度与风格对齐,现在全部浓缩在了一句话的交互中。这不仅仅是"生成几张图片",而是真正打造了一个听得懂你需求的个人多模态创作助理

体验了强大的出图能力后,在实际敲代码对接 API 的过程中,可能还是会遇到一些小磕绊。为了让你的接入过程更加丝滑,下一节我整理了几个常见的高频报错与避坑经验。


七、避坑指南

7.1 接口用错了

HTTP 404: model is not found

原因sensenova-u1-fast 是图像生成模型,只能走 /v1/images/generations 接口。如果你误发到 /v1/chat/completions,就会 404。反过来,sensenova-6.7-flash-lite 只走 /v1/chat/completions

7.2 图像尺寸不合法

field Size invalid, should be one of: ...

解决:U1 Fast 只支持固定尺寸,参考 4.3 节的尺寸表。不能自定义任意分辨率。

7.3 回复内容为空

如果 6.7 Flash-Lite 返回的 content 为空,大概率是 max_tokens 设太小了。推理模式(thinking)会消耗额外 token,建议设置 max_tokens: 2048 以上。

7.4 子域名别写错

⚠️ API 地址是 https://token.sensenova.cn/v1,注意子域名是 token,不是 api.sensenova.cn


八、总结

在这个方案中,sensenova-6.7-flash-lite 仅作为辅助模型,负责对话理解与 Prompt 增强。而核心的绘图和排版能力,全部归功于真正的主角 —— SenseNova U1

我们在 OpenClaw 中调用的是其线上版本 sensenova-u1-fast(接口:/v1/images/generations),同时商汤也在 GitHub 上完全开源了它的底层模型。结合 SenseNova-U1 开源仓库 的特性,用三句话说清楚 U1 为什么值得关注:

  1. 信息图排版的开源 SOTA:很多生图模型“什么都能画但都不精”,而 U1 在高密度图文混排、中英文本生成上做到了极致。在多项基准评测(如 OneIG、BizGenEval 等)中,它的生成性能和文字清晰度都表现卓越。
  2. 端到端纯正架构:U1 在架构上走了不同的路——它采用了 NEO-Unify 架构,干掉了传统的 VE 和 VAE,通过端到端统一建模实现了信息的零损耗,从而带来了惊艳的图像细节和生图速度。
  3. 线上免费调用 + 完全开源生态:线上 API(sensenova-u1-fast)公测期间免费用,能够零成本快速集成到你的 AI 助手;其底层权重基于 Apache 2.0 协议开源,如果想本地部署或二次开发,随时可以把它拉下来跑在自己的显卡上。

官方已经提供了完整的 SenseNova-Skills OpenClaw Skill 套件,信息图、PPT、数据分析、深度研究一条龙。装上就能用,不用自己造轮子。各位同好们,可以 Star 一下持续关注项目进展,最早获取更新通知。

相关资源

  • SenseNova 平台:https://platform.sensenova.cn
  • U1 开源仓库:https://github.com/OpenSenseNova/SenseNova-U1
  • SenseNova-Skills(OpenClaw Skill 套件):https://github.com/OpenSenseNova/SenseNova-Skills
  • OpenClaw 官网:https://openclaw.ai
Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐