OpenClaw 接入商汤 SenseNova：打造多模态个人 AI 助手

本文介绍了如何在OpenClaw中接入商汤SenseNova平台的多模态AI模型，打造具备图像理解和生成能力的个人助手。SenseNova目前提供免费公测，包含6.7 Flash-Lite多模态对话模型和U1 Fast图像生成模型。文章详细讲解了API获取、环境配置和验证流程，并展示了6.7 Flash-Lite在图像理解方面的出色表现，能够精准识别场景细节和文化内涵。同时深入解析了U1模型的NE

星辰徐哥

1712人浏览 · 2026-05-23 16:48:17

星辰徐哥 · 2026-05-23 16:48:17 发布

OpenClaw 接入商汤 SenseNova：打造多模态个人 AI 助手

商汤 SenseNova 平台目前公测免费，提供多模态对话模型（6.7 Flash-Lite）和图像生成模型（U1 Fast）。本文将手把手教你如何在 OpenClaw 中接入商汤模型，搭建一个"能看、能画"的个人 AI 助手。

一、商汤 SenseNova 平台简介

在这里插入图片描述

SenseNova 是商汤科技推出的大模型 API 服务平台，目前公测期间免费使用，每个模型，每 5 小时 1500 次调用额度。什么概念？因为是每个模型单独计算额度，也就是说 5 小时的最大调用次数为 4500 次，平均每分钟 15 次。每 4 秒调用 1 次，对于个人和办公而言，绰绰有余。

平台提供以下模型：

模型 ID	类型	能力	上下文
`sensenova-6.7-flash-lite`	多模态对话	文字 + 图片输入，文字输出，支持推理模式	256K
`sensenova-u1-fast`	图像生成	文字输入，图像输出，专精信息图/海报生成	-
`deepseek-v4-flash`	文本对话	纯文本输入输出	256K

本文聚焦于 6.7 Flash-Lite（多模态对话）和 U1 Fast（图像生成）的组合使用，两者互补，覆盖"看图 + 聊天 + 出图"的完整场景。

平台地址：https://platform.sensenova.cn

二、环境准备

在这里插入图片描述

2.1 注册并获取 API Key

访问 SenseNova 平台注册账号
进入控制台 → API Key 管理 → 创建 API Key
记录你的 API Key：

export SENSENOVA_API_KEY="sk-your-api-key-here"

2.2 验证 API 连通性

先确认 API 可用：

# 列出可用模型
curl -s "https://token.sensenova.cn/v1/models" \
  -H "Authorization: Bearer $SENSENOVA_API_KEY" | python3 -m json.tool

在这里插入图片描述

返回结果中应包含 sensenova-6.7-flash-lite 和 sensenova-u1-fast。

2.3 安装 OpenClaw（已安装的同学可跳过）

未安装的同学，可以先安装 OpenClaw，命令如下。

# 需要 Node.js 22.16+ 或 24+
npm install -g openclaw@latest

# 初始化配置（会引导你完成 Gateway、工作区、Channel 等设置）
openclaw onboard --install-daemon

按照交互流程需要配置一下接口地址、密钥以及模型 ID。具体配置请参考下表：

配置项 (Prompt)	填充值 (Value)	描述
Model/auth provider	`Custom Provider`	选择自定义供应方
API Base URL	`https://token.sensenova.cn/v1`	商汤 OpenAI 兼容接口地址
Authentication	`Paste API key now`	选择此项后则会要求你输入 API Key
API Key	`sk-xxxx...`	填入你获取的商汤 API Key
Endpoint compatibility	`OpenAI-compatible`	必须选择此项以确保协议对齐
Model ID	`sensenova-6.7-flash-lite`	指定具体的对话模型 ID
Endpoint ID	`sensenova`	此项为模型提供方，建议设为 `sensenova` 作为内部索引
Support image input?	`Yes`	该模型是多模态模型，则选择 YES 即可,自动将 imageModel 视觉模型一并设置

注意：有一些 AI 模型自动配置的话，会配置地址为 https://api.sensenova.cn/v1，注意子域名是 token.sensenova.cn

在这里插入图片描述
配置完成后，还会有一个交互项，是否重启服务，选择 Restart 配置即可生效，否则配置无法生效。

2.4 验证连接

进入 web 页面，直接输入问题测试一下，如果成功了，说明配置成功；若异常，请检查 BASE URL 或者 key 是否配置异常。

在这里插入图片描述

三、图像理解

6.7 Flash-Lite 支持图片输入，可以直接"看懂"图片内容。

在这里插入图片描述
打开 OpenClaw Web，直接输入这张图片，然后我向他询问了：“这是什么景点”？

在这里插入图片描述
这张图确实我在某书上找到的一个图片。

在这里插入图片描述

说实话，测完这个场景，商汤这颗 SenseNova 6.7 Flash-Lite 的表现真的有点“懂行”得过分了。它不只是在机械地看图说话，感觉它脑子里是真有“货”。

几个让我印象特别深的“人味儿”瞬间：

它比导游还懂“梗”：测灵隐寺“福鼎”的时候，它不光精准报出了位置，连“摸鼎=摸顶=步步登高”这种民间祈福的小心思都给拆解出来了。这种能把视觉信息跟咱中国传统文化“对上暗号”的能力，真的非常惊艳，像个很有文化底蕴的随身老向导。
细节抓取非常“显微镜”：这模型看图特别细，连人群里谁在举手机拍照、谁在伸手祈福这些瞬时的小动作都没漏掉。它不是泛泛地说“有一群人”，而是能看懂这群人到底在干嘛，这种对生活场景的洞察力，确实比很多只会识图的模型高出一大截。
复杂环境下“不犯迷糊”：不管是国宴上那一排穿得差不多的西装大佬，还是寺庙里人挤人的复杂背景，它都能从头发丝、领带颜色或者坐姿这些小细节里，把身份给“揪”出来，而且分析得头头是道，逻辑闭环做得极好。

总的来说，在目前这些免费公测的模型里，商汤这款 6.7 Flash-Lite 的“细腻程度”绝对是第一梯队的。它不只是能看清，它是真的能看懂。

四、深入 U1：不只是"画图"的模型

说到 SenseNova U1，很多人第一反应是"又一个文生图模型"。但实际上，U1 的野心远不止于此。它是商汤从底层架构重新设计的原生理解生成统一模型，和市面上那些"拼积木"式的多模态方案完全不是一个路子。

4.1 NEO-Unify 架构：一个全栈搞定

在这里插入图片描述

传统的多模态模型，本质上是"三个外包干一件事"：

💡 通俗理解：传统架构就像你找了一个翻译（Adapter）在"看图的人"和"写字的人"之间来回传话，信息每倒手一次就丢一点。U1 直接让一个人同时看图写字，省掉了中间商赚差价。

U1 的 NEO-Unify 架构做了三件事：

🔗 干掉 Visual Encoder 和 VAE：不需要独立的视觉编码器来"翻译"图片，也不需要 VAE 来"解码"图像。像素和文本在同一个表征空间里直接交互。
🧠 原生 Mixture-of-Transformers（MoT）骨干：理解流和生成流共享同一个自注意力机制，互相参照、深度协同。
🎯 端到端建模：从输入到输出一气呵成，信息零损耗。

4.2 U1 的"信息图杀手锏"

U1 最让我惊艳的能力不是画猫画狗，而是信息图（Infographic）生成。

直接用 curl 测试一把：

curl https://token.sensenova.cn/v1/images/generations \
  -H "Authorization: Bearer {your key}" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "sensenova-u1-fast",
    "prompt": "这张信息图整体采用极具亲和力的可爱卡通风格，色调以柔和的粉色、淡黄色和浅蓝色为主。全图在排版上具有极强的对称性与统一感，从左到右等宽排列着三个独立的圆角矩形区块。\n【核心排版规则】\n- 全图包含左、中、等宽的右三个区块，这三个区块必须拥有完全统一的外观：每个区块都必须被一个独立的、厚度仅为 1px 的精致粉色细边框圆角矩形完全包裹。\n- 严禁任何内容超出这三个细边框，每个区块的内部元素（文字和图标）都必须与各自的 1px 细边框保持一致且舒适的安全间距，绝不能顶格或穿透边框。\n以下是三个区块的详细结构与全部文字内容：\n1. 左侧区块（1px 细边框圆角矩形内）：\n在区块内部最上方是主标题“信息图生成专家”，下方紧跟副标题：“帮助用户将复杂信息转化为清晰易懂的视觉呈现”。标题下方由上至下排列三项核心能力（每项均配有可爱的拟人化图标）：\n  - 1. 联网搜索功能：查询最新网络信息（图标为一个带有猫耳、拿着放大镜的拟人化地球）。\n  - 2. 网页内容读取功能：获取指定网页的详细内容（图标为一个戴着眼镜、正在阅读的拟人化纸卷）。\n  - 3. 信息图生成功能：根据文字描述生成专业的信息图（图标为一个手持柱状图的可爱机器人）。\n在左侧区块的最底部，包含一个黄色便利贴样式的卡片（右上角有一只探出纸箱的猫咪图标），文本内容：“专家提示：熟练结合搜索与读取工具，最大化提升视觉数据的信息密度。”\n2. 中间区块（1px 细边框圆角矩形内）：\n区块内部上方是居中的标题“严格工作流程”。整个区域通过一条带有节点的垂直轴线，串联起三个水平排列的工作步骤，每个步骤文字放置在圆角标签中：\n  - 步骤一：分析需求（左侧图标为粉色的大脑与一个带有笑脸的彩色齿轮）。\n  - 步骤二：收集信息（左侧图标为一个拟人化的漏斗，正在过滤星星和圆点）。\n  - 步骤三：生成图片（左侧图标为带有猫爪印的调色板、画笔以及一个饼状图）。\n3. 右侧区块（1px 细边框圆角矩形内）：\n区块内部上方是居中的标题“重要规则与核心目标”。上方部分为“重要规则”列表（包含四条规则，每条规则左侧配有图标）：\n  - 规则一：每次请求都是全新任务（图标为一个猫咪造型的甜甜圈）。\n  - 规则二：优先使用辅助工具收集信息（图标为一个带有星星装饰的可爱手提包）。\n  - 规则三：保留用户原始数据（图标为一个带有花朵旋钮的拟人化保险箱）。\n  - 规则四：使用用户语言生成内容（图标为一块玉石质感的云纹装饰和一支铅笔）。\n下方部分为“核心目标”卡片（背景为淡紫色，右侧配有一个礼物盒图标），文本内容：“消除混乱，重构逻辑，实现高维维度视觉数据合成。”",
    "size": "2752x1536",
    "n": 1
  }'

生成的图片：

在这里插入图片描述

API 上的 sensenova-u1-fast 版本，经过了 step 蒸馏和 CFG 蒸馏优化，专门针对信息图场景做了调教。简单说就是：画海报、出图表、排信息，它是专业的。

U1 vs 主流模型横向对比

维度	SenseNova U1	DALL-E 3 / GPT Image	Midjourney
信息图能力	⭐⭐⭐⭐⭐ 专精，高密度排版	⭐⭐⭐⭐ 强，文字精准	⭐⭐ 偏艺术，排版弱
文字渲染	商业级精度	行业顶尖	容易出错
开源/私有部署	✅ Apache 2.0 开源	❌ 闭源	❌ 闭源
免费额度	公测免费（每 5h / 1500 次）	付费	付费
模型参数	8B（轻量高效）	未公开	未公开
核心优势	信息图 + 开源 + 低成本	指令遵循 + 文字精准	极致艺术美感

开源版本一览

在这里插入图片描述

模型	总参数 / 激活参数	骨干类型	适用场景
`SenseNova-U1-8B-MoT`	18B（理解 ~8B + 生成 ~8B）	密集主干	通用理解 + 生成（Base 模型）
`SenseNova-U1-8B-MoT-SFT`	18B	密集主干	通用理解 + 生成（SFT 微调版）
`SenseNova-U1-8B-MoT-Infographic`	18B	密集主干	信息图专精
`SenseNova-U1-8B-MoT-LoRAs`	—	LoRA 权重	8-step 快速推理（配合 Base 使用）
`SenseNova-U1-8B-MoT-8step-preview`	18B	密集主干	8 步快速生成（预览版）
`SenseNova-U1-A3B-MoT`	39B（激活 ~3B）	MoE 主干	高效推理部署（Base 模型）
`SenseNova-U1-A3B-MoT-SFT`	39B（激活 ~3B）	MoE 主干	高效推理部署（SFT 微调版）

💡 参数命名说明：8B-MoT 中的"8B"指的是 ~8B 理解参数 + ~8B 生成参数，HF 上显示的总参数约 18B。A3B-MoT 的"A3B"指激活参数约 3B（MoE 架构），HF 上显示总参数约 39B。详见 parameter breakdown。

📢 开源地址：github.com/OpenSenseNova/SenseNova-U1，Apache 2.0 协议，有 GPU 的同学可以自己部署。

4.3 支持的图像尺寸

U1 Fast（sensenova-u1-fast）支持 11 种固定分辨率，均为 2K 级别，默认值为 2752x1536（16:9）：

尺寸	比例	说明
`2048x2048`	1:1	正方形，适合插画、头像
`2752x1536`	16:9	⭐ 默认值，横版宽屏海报
`1536x2752`	9:16	竖版宽屏海报、手机壁纸
`2496x1664`	3:2	横版经典比例
`1664x2496`	2:3	竖版经典比例
`2368x1760`	4:3	横版传统比例
`1760x2368`	3:4	竖版传统比例
`2272x1824`	5:4	横版，接近正方
`1824x2272`	4:5	竖版，适合社交媒体
`3072x1376`	21:9	超宽横幅、Banner
`1344x3136`	9:21	超长竖图、长图海报

📌 数据来源：商汤开放平台官方文档

4.4 Prompt 最佳实践：信息图场景

U1 对 Prompt 的结构化程度极其敏感。写 Prompt 不是"你帮我画个好看的海报"就完事了，得像给设计师下 Brief 一样具体。

推荐结构：主题 + 核心元素 + 布局逻辑 + 风格/配色

⚠️ 反面教材：

帮我画一张AI发展趋势的海报，要好看的

✅ 正确姿势：

设计一张现代科技风格的信息图海报。
主题：2026年AI发展趋势。
布局：水平三列网格结构。
核心元素：左列放3个关键数据指标（配图标），中列放趋势时间线，右列放4个发展方向。
配色：深蓝背景，白色主文字，蓝色和青绿色渐变点缀。
字体风格：标题用粗体无衬线字体，正文用现代等宽字体。

💡 进阶技巧 — Prompt 增强：先让 6.7 Flash-Lite 帮你丰富 Prompt，再喂给 U1

这是一张极具现代科技与未来感的信息图海报（Infographic Poster），整体采用水平三列网格结构（Horizontal Three-Column Grid），排版布局精准且对齐。
【核心排版与视觉约束】
全图背景为深邃的赛博朋克深蓝底色（Cyberpunk Deep Blue），带有微弱的几何矩阵纹理。主文字统一使用纯白色，通过粗体无衬线字体（Bold Sans-serif）和现代等宽字体（Modern Monospace）区分层级。核心视觉元素（图标、时间线、方向块）均使用Neon霓虹青绿（Teal）到电光蓝（Electric Blue）的高级渐变流光（Gradient Flow）进行点缀。
以下是严格对齐的三栏详细结构：
1. 左列（等宽垂直区块）：关键数据指标 (3 KEY METRICS)
由上至下平行排列着三个独立的细边框矩形卡片，每个卡片内部左侧为霓虹渐变图标，右侧为数据与中文描述（使用粗体标题与等宽正文）：
卡片一（标题：算力总爆发，图标为带有闪电的超算芯片矩阵）：
数据占位： 预计 2026年 全球AI算力需求将增长 25倍（基于 2023年基数）。
卡片二（标题：大模型参数突破，图标为多层堆叠的神经元网络）：
数据占位： 超万亿参数模型成为行业标配，模型智能水平显著提升。
卡片三（标题：AIAgent 应用普及，图标为多手控制多工具的拟人化机器人）：
数据占位： 超过 60% 的通用软件将深度集成全自动化 AI Agents 助手。
2. 中列（等宽垂直区块）：趋势时间线 (TREND TIMELINE)
该区域中间贯穿一条从底部向上流动的电光蓝渐变垂直时间轴线，轴线上均匀排列着三个发光的青绿色节点（Nodes），每个节点向两侧引出带有年份标签和中文文字描述的发光面板：
节点一（2023-2024）：大模型元年
描述文字（英文）： FOUNDATIONAL MODELS & MULTIMODAL
节点二（2025-2026）：代理与推理
描述文字（中文）： AI AGENTS & COGNITIVE REASONING
节点三（2026-2027）：通用初现
描述文字（中文）： ARTIFICIAL GENERAL INTELLIGENCE (AGI) PROTOTYPES
3. 右列（等宽垂直区块）：发展方向 (4 DIRECTIONS)
由上至下平行排列着四个等高的细边框圆角矩形，每个矩形背景带有微弱的青绿到蓝渐变，内部左侧为图标，右侧为中文标题与英文方向（使用粗体标题与等宽正文）：
方向一（图标为DNA双螺旋与药物分子）：AI + 医疗
标题与正文（英文）： AI-Powered Drug Discovery & Genomics
方向二（图标为机械臂与全自动化工厂）：AI + 制造
标题与正文（中文）： Autonomous Manufacturing & Full Automation
方向三（图标为卫星与全球物联网）：AI + 基础设施
标题与正文（英文）： Next-Gen AI Infrastructure & IoT
方向四（图标为多模态屏幕与艺术调色板）：AI + 创意
标题与正文（中文）： Interleaved Multimodal Content Generation & Art

五、接入 SenseNova-Skills：官方 OpenClaw Skill 套件

自己封装 Skill 当然可以，但其实商汤官方已经提供了一整套 OpenClaw Skill —— SenseNova-Skills，开箱即用，覆盖图像生成、PPT 制作、数据分析、深度研究四大场景。

5.1 SenseNova-Skills 能力矩阵

能力类别	核心 Skill	说明
🎨 图像 & 信息图	`sn-infographic`、`sn-image-base`	信息图生成、图像识别、Prompt 增强
📊 PPT 生成	`sn-ppt-entry`、`sn-ppt-standard`	从 Brief 到完整 PPT 的自动化流程
📈 数据分析	`sn-da-excel-workflow`	多文件 Excel 数据清洗 & 可视化
🔬 深度研究	`sn-deep-research`	自动规划 → 搜索 → 综合报告

5.2 一键安装

# 克隆官方仓库
git clone https://github.com/OpenSenseNova/SenseNova-Skills.git --depth=1

# 将所有 Skill 拷贝到 OpenClaw 的 skills 目录
mkdir -p ~/.openclaw/skills
cp -r SenseNova-Skills/skills/* ~/.openclaw/skills/

# 重启 OpenClaw 使 Skill 生效
openclaw gateway restart

安装完成后，通过 openclaw skills list 确认 Skill 已被识别：

openclaw skills list
# 应该能看到 sn-infographic、sn-image-base、sn-ppt-entry 等

5.3 配置环境变量

在 ~/.openclaw 下编辑 .env 文件（没有则创建即可）：

SN_BASE_URL="https://token.sensenova.cn/v1"
SN_API_KEY="sk-xxx"

配置好后，直接在 OpenClaw 对话中说"帮我生成一张关于 Go 性能优化的信息图"，sn-infographic Skill 会自动接管，完成 Prompt 增强 → U1 出图的完整流程。

在这里插入图片描述

可以看到，一句话 Prompt 虽然能出图，但效果只能算"能看"——布局随机、信息密度低、视觉层级模糊。这其实是所有文生图模型的通病：模型不是不行，是你没告诉它该怎么画。

要让 U1 真正发挥实力，关键在于 Prompt 的结构化设计。具体来说，一个高质量的信息图 Prompt 至少要包含三个维度：

全局视觉规则：锁定配色、字体、背景纹理等"不变量"，让模型有统一的视觉底座。
排版硬约束：明确几列布局、容器边框、对齐方式，杜绝模型"自由发挥"。
逐区块内容描述：精确到每个区块的标题、图标、文字内容，做到"所写即所得"。

下面这个完善后的 Prompt 就是按这个思路设计的，效果天差地别👇

这是一张专门针对“Go 语言性能优化（Go Performance Optimization）”的现代科技风高信息度视觉海报。整体排版严格采用水平三列网格结构（Horizontal Three-Column Grid），左右等宽，边界紧凑。

【全局视觉规则】
- 背景：深邃的科技感暗黑/深蓝底色（Deep Tech Blue），带有微弱的微服务拓扑或网格几何纹理。
- 文字：标题和关键技术指标使用纯白色粗体无衬线字体（Bold Sans-serif）；详细描述使用现代等宽字体（Modern Monospace）以彰显代码和技术质感。
- 色调点缀：所有的技术图标、时间线轴和边框均使用 Go 语言标志性的“地中海蓝（Gopher Blue）”到“霓虹青绿（Teal）”的高级渐变流光。
- 容器硬约束：左、中、右三列必须被三个独立的、厚度仅为 1px 的粉蓝/青绿细边框圆角矩形完全包裹，内容严禁溢出。

以下是三列对齐的详细技术结构和文字内容：

1. 左列（1px 细边框圆角矩形内）：性能三大观测指标 (3 PERFORMANCE METRICS)
由上至下平行排列着三个独立的卡片，每个卡片左侧为发光的科技感图标，右侧为硬核技术指标：
  - 指标一（标题：内存分配逃逸率，图标为带向上箭头的堆栈矩阵）：
    - 描述：通过优化逃逸分析（Escape Analysis），将对象高频分配在栈（Stack）而非堆（Heap）上，减少 GC 压力。
  - 指标二（标题：Goroutine 调度延迟，图标为带有时间钟表的 G-M-P 调度模型）：
    - 描述：合理控制并发粒度，监控 Syscall 阻塞，将 P（Processor）的本地队列上下文切换延迟降至微秒级。
  - 指标三（标题：GC 停顿时间（STW），图标为被斩断的带锯齿的红色时间线）：
    - 描述：利用三色标记清扫算法特性，优化指针写屏障（Write Barrier），控制 Stop-the-world 处于亚毫秒级别。

2. 中列（1px 细边框圆角矩形内）：性能调优黄金工作流 (OPTIMIZATION WORKFLOW)
区块内部上方是居中的标题“Go 调优标准流程”。中间贯穿一条从底部向上流动的蓝色渐变垂直轴线，轴线上均匀排列着三个发光的青绿色节点（Nodes），每个节点引出一个步骤标签：
  - 步骤一：基准测试与剖析 (Benchmark & Pprof)
    - 描述：通过 runtime/pprof 和 go test -bench 抓取 CPU 和 Heap 的 profile 火焰图，精准定位 CPU 密集型性能瓶颈。
  - 步骤二：算法调整与逃逸优化 (Refactor & Escape)
    - 描述：针对热点代码复用切片（Slice）与字典（Map）空间，利用 sync.Pool 建立对象复用池，减少内存频繁申请。
  - 步骤三：并发对齐与编译器压榨 (Concurrency & Inline)
    - 描述：调整 GOMAXPROCS 契合硬件核心，利用编译器内联（Inlining）和边界检查消除（BCE）榨干最后一点 CPU 性能。

3. 右列（1px 细边框圆角矩形内）：四大核心优化方向 (4 OPTIMIZATION DIRECTIONS)
由上至下平行排列着四个等高的细边框矩形，代表落地实践方向，左侧配有精致图标：
  - 方向一（图标为内存池与连通管道）：内存深度复用 (Memory Reuse)
    - 描述：严禁在热点循环中动态扩容 Slice，提前预估 capacity。
  - 方向二（图标为并行的多线程轨道）：并发无锁化设计 (Lockless Concurrency)
    - 描述：优先使用 Channel 传递数据，或利用 sync/atomic 原子操作替代沉重的 sync.Mutex 互斥锁。
  - 方向三（图标为网格序列化过滤器）：零拷贝与 I/O 优化 (Zero-Copy I/O)
    - 描述：在网络与文件读写中重用 []byte 缓冲区，深度使用 strings.Builder 和 byte-oriented 接口避免隐式转换。
  - 方向四：[USER_CUSTOM_DIRECTION_GOES_HERE]

在这里插入图片描述

对比前面一句话 Prompt 的"随缘出图"，结构化 Prompt 的效果提升肉眼可见——布局规整、信息分层清晰、视觉风格统一。这也验证了一个朴素的道理：在文生图领域，Prompt 工程的投入产出比远高于换模型。花 10 分钟打磨 Prompt 结构，比纠结用哪个模型有效得多。

💡 实战建议：把你打磨好的结构化 Prompt 存成模板，下次只需替换"内容描述"部分，就能批量生成同系列风格的信息图。

六、连续生图实战：一个对话画完「小兔子四季历险记」绘本

上面我们已经掌握了 U1 的单张出图能力，但实际工作中，你往往需要的不是"一张图"，而是一套风格统一、画面连贯的组图。比如画一组食谱教程、一套产品使用指南，或者一个图文绘本故事。

sn-infographic Skill 的真正威力在于：你可以在同一个对话中连续发出多条生图指令，Skill 会自动完成 Prompt 增强 → U1 出图的完整流程，而且上下文天然共享，风格自动对齐。

下面用一个绘本创作场景演示：在一个对话中连续生成 4 张「小兔子四季历险记」绘本插图——从春到冬，每一步画面风格统一、角色连贯。全程在 OpenClaw 对话框中完成，不用写一行代码。

💬 只需要在 OpenClaw 中发送：

请帮我生成一个图文绘本故事，主角是一只可爱的兔子，故事讲述它经历四季变化。

可以看到，OpenClaw 接到指令后，会先自动思考并拆解出四个分镜的提示词（Prompt），随后自动触发 4 次 SenseNova U1 的生图任务，实现一条龙的图文生成。
在这里插入图片描述

等待片刻后，四张连贯的绘本插图就自动生成完毕了！我们来欣赏一下这组由 SenseNova U1 带来的「小兔子四季历险记」。从成图可以看到，四张图片不仅将四季特征完美展现，而且整体画风保持了高度的统一：

🌸 春之苏醒： 小兔子在万物复苏的草地上醒来，画面充满了生机盎然的绿色与柔和的春光。
在这里插入图片描述

🍉 夏之欢歌： 炎炎夏日，小兔子在清凉的小溪边快乐奔跑，夏日色彩明快热烈。
在这里插入图片描述

🍁 秋之收获： 金黄色的秋天，小兔子抱着胡萝卜，画面洋溢着丰收的喜悦和温暖的色调。
在这里插入图片描述

❄️ 冬之安眠： 大雪纷飞的冬日，小兔子在温暖的雪地中，画面静谧而祥和。
在这里插入图片描述

💡 小结：借助 OpenClaw 与 SenseNova U1 的结合，原本繁琐的提示词构思、多任务并发调度与风格对齐，现在全部浓缩在了一句话的交互中。这不仅仅是"生成几张图片"，而是真正打造了一个听得懂你需求的个人多模态创作助理。

体验了强大的出图能力后，在实际敲代码对接 API 的过程中，可能还是会遇到一些小磕绊。为了让你的接入过程更加丝滑，下一节我整理了几个常见的高频报错与避坑经验。

七、避坑指南

7.1 接口用错了

HTTP 404: model is not found

原因：sensenova-u1-fast 是图像生成模型，只能走 /v1/images/generations 接口。如果你误发到 /v1/chat/completions，就会 404。反过来，sensenova-6.7-flash-lite 只走 /v1/chat/completions。

7.2 图像尺寸不合法

field Size invalid, should be one of: ...

解决：U1 Fast 只支持固定尺寸，参考 4.3 节的尺寸表。不能自定义任意分辨率。

7.3 回复内容为空

如果 6.7 Flash-Lite 返回的 content 为空，大概率是 max_tokens 设太小了。推理模式（thinking）会消耗额外 token，建议设置 max_tokens: 2048 以上。

7.4 子域名别写错

⚠️ API 地址是 https://token.sensenova.cn/v1，注意子域名是 token，不是 api.sensenova.cn。

八、总结

在这个方案中，sensenova-6.7-flash-lite 仅作为辅助模型，负责对话理解与 Prompt 增强。而核心的绘图和排版能力，全部归功于真正的主角 —— SenseNova U1。

我们在 OpenClaw 中调用的是其线上版本 sensenova-u1-fast（接口：/v1/images/generations），同时商汤也在 GitHub 上完全开源了它的底层模型。结合 SenseNova-U1 开源仓库的特性，用三句话说清楚 U1 为什么值得关注：

信息图排版的开源 SOTA：很多生图模型“什么都能画但都不精”，而 U1 在高密度图文混排、中英文本生成上做到了极致。在多项基准评测（如 OneIG、BizGenEval 等）中，它的生成性能和文字清晰度都表现卓越。
端到端纯正架构：U1 在架构上走了不同的路——它采用了 NEO-Unify 架构，干掉了传统的 VE 和 VAE，通过端到端统一建模实现了信息的零损耗，从而带来了惊艳的图像细节和生图速度。
线上免费调用 + 完全开源生态：线上 API（sensenova-u1-fast）公测期间免费用，能够零成本快速集成到你的 AI 助手；其底层权重基于 Apache 2.0 协议开源，如果想本地部署或二次开发，随时可以把它拉下来跑在自己的显卡上。

官方已经提供了完整的 SenseNova-Skills OpenClaw Skill 套件，信息图、PPT、数据分析、深度研究一条龙。装上就能用，不用自己造轮子。各位同好们，可以 Star 一下持续关注项目进展，最早获取更新通知。

相关资源：

SenseNova 平台：https://platform.sensenova.cn
U1 开源仓库：https://github.com/OpenSenseNova/SenseNova-U1
SenseNova-Skills（OpenClaw Skill 套件）：https://github.com/OpenSenseNova/SenseNova-Skills
OpenClaw 官网：https://openclaw.ai