AI产品设计新范式：从静态界面到动态协作关系的构建

weixin_30781775

305人浏览 · 2026-06-02 12:15:43

weixin_30781775 · 2026-06-02 12:15:43 发布

1. 从草图到感知：AI设计范式的根本性转变

在过去的十年里，我参与和主导过不少涉及人工智能功能的产品设计。从最早的推荐算法优化，到后来的智能客服、内容生成助手，再到如今遍地开花的AIGC应用，我最大的感触是： 设计AI，本质上是在设计一种“关系” 。这种关系不再是用户与一个静态、确定、可预测的工具之间的关系，而是与一个动态、不确定、甚至带有某种“性格”的智能体之间的协作关系。传统的用户体验设计工具箱，在面对这种新型关系时，开始显得力不从心。

想想看，我们习惯的UX设计流程是什么？通常是“定义问题 - 用户研究 - 信息架构 - 线框图/原型 - 可用性测试”这样一个相对线性的过程。我们依赖低保真原型（比如在Figma或Sketch里画的线框图）来快速验证界面布局和交互流程。这些原型是“有形”的，按钮就在这里，点击后跳转到那个页面，状态是可枚举的。但AI系统的核心交互，往往是无形的、基于意图的。比如，用户对智能写作助手说“把这段写得更有说服力一点”，这个“更有说服力”背后可能对应着十几种不同的文本改写策略，而AI的选择对于用户来说是一个黑盒。传统的线框图根本无法表达这种抽象意图的输入和概率性的输出。

这就引出了AI设计面临的第一个核心挑战： 如何为抽象和动态的交互进行“草图构思”？ 我们无法像画一个按钮那样，去“画”出一段自然语言对话的多种可能走向。第二个挑战更为深刻： AI系统天生会犯错，且行为会随时间演变，这与经典的可预测、一致性可用性原则直接冲突。 我们如何设计，才能让用户不仅能用，还愿意信任并接纳一个不完美的伙伴？这不仅仅是技术问题，更是设计哲学和心理学问题。

微软研究院在CHI大会上发表的三篇论文，恰好从三个紧密关联的层面，为我们提供了极具实操价值的思考框架和工具： 构思工具、设计准则和期望管理 。它们共同指向一个目标：将AI从神秘的技术黑箱，转变为用户可以理解、预期并与之有效协作的透明伙伴。接下来，我将结合自己的实战经验，对这三个层面进行深度拆解，并补充大量在学术论文之外、真实项目中会遇到的细节与抉择。

2. 核心挑战解析：为什么传统UX方法在AI面前失灵了？

在深入具体方法之前，我们必须先理解问题的根源。传统设计方法在AI系统面前失灵，并非因为这些方法本身不好，而是因为它们所应对的问题域发生了根本性变化。

2.1 从有形交互到抽象意图

传统软件交互是“直接操纵”范式：用户通过点击、拖拽等物理动作，直接对屏幕上的对象进行操作，结果立即可见且确定。设计原型可以完美模拟这种交互。但AI交互，尤其是基于自然语言处理（NLP）和大型语言模型（LLM）的交互，是“意图传达”范式。用户输入一段模糊的指令或问题，AI需要解读意图，并在其庞大的参数空间中生成一个响应。这个过程中存在多重不确定性：

意图理解的歧义性 ：用户说的“简洁一点”，是指缩短长度，还是改用更简单的词汇，或是调整句子结构？
生成结果的多解性 ：对于同一个意图，AI可以生成无数种在技术上“正确”但风格、语气、侧重点各不相同的输出。
输出评估的主观性 ：结果的好坏没有绝对标准，严重依赖用户的具体场景和主观偏好。

实操心得 ：在项目早期，我们团队曾试图用传统的用户故事地图（User Story Mapping）来定义AI功能。结果发现，写出来的用户故事（如“作为一个营销人员，我希望AI能帮我生成广告文案，以便快速完成工作”）过于笼统，完全无法指导具体设计。后来我们将其拆解为“意图层”和“反馈层”故事。例如：“当我对生成的文案说‘更年轻化一些’时，我需要能快速预览3种不同方向的修改（如使用网络流行语、调整句式节奏、引用年轻文化符号），并选择最接近我预期的一种。” 这迫使我们去思考如何设计界面，来暴露和收敛这种抽象意图。

2.2 从静态系统到动态实体

传统软件上线后，功能和行为基本固定，直到下次版本更新。AI系统，特别是那些包含在线学习或定期微调机制的模型，其行为会随着新数据流入而持续演化。今天能完美回答的问题，明天可能因为模型微调或数据漂移而给出略有不同的答案。这种动态性带来了两大设计难题：

可预测性原则的失效 ：用户体验的基石之一是“一致性”，用户学会一个操作后，期望下次同样操作能得到同样结果。AI的动态性打破了这种一致性保证。
测试与评估的复杂性 ：如何测试一个行为会变化的系统？传统的可用性测试捕捉的是某个时间点的快照，但AI系统的体验是时间轴上的曲线。我们需要新的评估方法，关注长期信任度、适应性和用户满意度趋势。

2.3 从完美工具到不完美伙伴

用户对传统软件的容错预期是“零容忍”：计算器不能算错，保存按钮必须能保存。但所有AI系统都有错误率，只是高低不同。用户对AI的容错预期更为复杂，它取决于：

错误的代价 ：音乐推荐出错了，代价很小；医疗诊断建议出错了，代价巨大。
纠错的成本 ：发现错误并修正它有多难？是点一下“撤销”，还是需要从头开始？
AI带来的价值 ：即使有错误，AI提供的效率提升或能力扩展是否足以让用户容忍这些错误？

这就将设计焦点从“消除所有错误”不切实际地转向了“管理错误预期和提供优雅的恢复路径”。设计不仅要考虑功能，更要考虑如何构建合理的用户心理模型。

3. 构思阶段：为抽象交互绘制草图——NLP笔记本实践

面对“如何为自然语言交互画草图”这个难题，微软论文《Sketching NLP》提出的“笔记本”概念，给了我极大的启发。它本质上是一种 面向AI的交互原型工具 ，将设计思维的探索过程与NLP技术的可能性进行了深度融合。

3.1 传统工具的局限与笔记本的诞生

传统线框图（Wireframe）擅长表达空间布局和控件，但对时序、对话流和内容变体的表达能力很弱。故事板（Storyboard）能讲故事，但难以快速迭代和连接真实的技术能力。论文中的“笔记本”是一个巧妙的混合体：它看起来像一个增强版的文本编辑器，但集成了快速调用NLP API、并排对比多种输出、标注设计意图和模型限制的能力。

它的核心价值在于创建了一个“共同语言”的场域 ：

设计师 可以在里面用自然语言描述设计想法，并立刻看到大致的AI输出效果，避免了“纸上谈兵”。
NLP科学家 可以看到设计需求具体对应哪些技术挑战（如实体识别、情感分析、文本生成），并能快速反馈当前模型能力的边界在哪里。
潜在用户 可以通过与这个“可交互的草图”互动，提供关于输出结果是否有用、是否符合预期的反馈，这种反馈比对着静态图片想象要真实得多。

3.2 实操：如何构建你自己的“AI设计笔记本”

论文描述的是研究环境，但在实际工作中，我们可以用现有工具组合快速搭建一个轻量版的设计探索环境。以下是我们团队采用过的一个有效流程：

步骤一：定义探索框架 不要一上来就画界面。先和产品经理、算法工程师一起，明确要探索的 核心AI能力 和 关键用户意图 。例如，针对“智能邮件起草”功能，核心能力可能是“根据关键词和上下文生成邮件草稿”，关键意图则包括“正式商务邀约”、“委婉的催办提醒”、“友好的会议纪要分享”等。

步骤二：选择原型工具 我们放弃了高保真UI设计工具，转而使用：

Notion或Coda ：作为“笔记本”本体。它们支持富文本、数据库、并能轻松嵌入交互元素。
简单的前端界面（如用Streamlit或Gradio快速搭建） ：用于连接真实的或模拟的AI API，提供可交互的输入输出区域。
API测试工具（如Postman） ：用于快速尝试不同的提示词（Prompt）和参数，理解模型行为。

步骤三：进行“技术-设计”探索循环

设计假设 ：在Notion中，写下一条用户可能发出的指令，如“帮我写一封邮件，向客户王总解释项目延迟的原因，语气要诚恳并给出新的时间点。”
技术试探 ：在Postman或Gradio界面中，用不同的Prompt格式（如直接指令、提供样例、分步骤指示）调用模型API，生成3-5个版本的邮件草稿。
结果对比与标注 ：将生成的多个版本贴回Notion，并排展示。设计团队和算法团队一起标注：哪个版本在语气上最合适？哪个版本遗漏了关键信息（如新时间点）？哪个版本出现了事实性错误或不当表述？
模式提炼与设计提问 ：基于对比，提炼出设计需要解决的问题。例如：“我们需要一个‘语气’选择器吗？（正式/诚恳/轻松）”、“当AI遗漏用户指令中的关键要素时，界面如何提示用户补充或如何让AI主动询问？”、“是否提供‘重写某一句’的细化控制？”

避坑指南 ：在这个阶段，最容易犯的错误是过早陷入UI细节（比如按钮放左边还是右边）。笔记本方法的核心是 推迟UI决策，优先探索交互逻辑和AI能力边界 。我们曾为一个内容摘要功能争论了很久摘要长度控制滑块的设计，后来用笔记本探索发现，用户更根本的需求是“按角色摘要”（给老板的摘要vs给技术团队的摘要），长度反而是次要的。这完全改变了我们的设计方向。

3.3 从探索到定义：产出物是什么？

经过几轮探索，你的“笔记本”不应该只是一堆杂乱无章的尝试记录。它应该产出以下几类关键设计定义：

意图分类与响应模式库 ：明确系统支持哪些核心用户意图，以及每种意图下，AI可能有哪些典型的、有价值的响应模式（包括成功、模糊、失败的情况）。
Prompt设计规范 ：总结出针对不同意图和场景，前端应该如何构造发送给AI的指令（Prompt），包括系统角色设定、上下文组织、输出格式要求等。这是连接设计与技术的桥梁。
交互模式假设 ：基于探索，提出具体的交互模式来解决不确定性。例如：“对于开放式创作请求，采用‘先生成多个选项，让用户选择并迭代’的模式；对于有明确标准的修改请求，采用‘单次生成，但提供精细的修正控件（如高亮修改处、解释原因）’的模式。”
技术约束清单 ：明确记录下当前AI能力的限制，如不支持实时联网搜索、对某些专业领域知识掌握有限、生成长文本时可能前后矛盾等。这些约束将直接转化为设计上的“护栏”和“预期管理”措施。

4. 设计准则：18条人机交互指南的深度解读与应用

有了好的构思工具，我们还需要评价设计好坏的标准。微软的《人机交互指南》论文将二十多年的研究浓缩为18条具体、可操作的设计准则，这无疑是AI设计领域的宝贵财富。但如何理解并应用这些准则，需要结合具体场景。

4.1 准则的四大阶段与核心逻辑

这18条准则按交互阶段分为四组，其内在逻辑非常清晰：

初始阶段（准则1-4） ：核心是 建立正确的初始预期 。包括说明AI能做什么、不能做什么，解释其如何工作，设置初始信任度，以及告知用户其可能出错。
常规交互阶段（准则5-12） ：核心是 保持交互的效率和透明度 。包括提供有效反馈、基于情境提供信息、匹配社会规范、防止误操作、学习用户习惯、适时淡出、提供全局解释等。
出错时（准则13-16） ：核心是 优雅地处理失败，并支持用户纠正 。包括明确告知出错、说明原因、提供纠正方法，并从中学习。
随时间演变（准则17-18） ：核心是 管理系统的变化，并邀请用户参与改进 。包括通知用户重大更新，以及允许用户提供反馈来改进系统。

4.2 关键准则实战解析与权衡

在实际项目中，这些准则之间常常需要权衡。我以几个最常引发讨论的准则为例：

准则1 & 2：明确系统能力 & 解释系统如何工作 这是“预期管理”的起点。但解释到何种程度？全盘托出技术细节会让用户困惑。我们的实践是采用 分层解释 ：

表层（面向所有用户） ：用一句话或一个图标表示核心能力。如“基于您文档的内容提供写作建议”。
中层（用户有兴趣时） ：通过“了解更多”链接，用通俗类比解释。如“它通过分析您已写的内容和数百万篇类似文章，来寻找常见的表达模式和优化建议。”
深层（面向专业用户或出错时） ：提供技术细节入口。如“本次建议基于文本连贯性模型，置信度为85%。点击查看相关段落。”

准则6：基于情境提供相关信息 这是AI价值的关键。但“相关”的定义是什么？我们曾为一个知识库AI设计问答功能，初期它会把所有可能相关的文档片段都罗列出来，导致信息过载。后来我们引入了“相关性阈值”和“信息聚合”设计：

只有置信度高于某个阈值（如70%）的结果才会直接展示为“最佳答案”。
其余相关但置信度稍低的结果，被聚合在“其他可能相关的信息”折叠区，用户可以按需展开。
同时，系统会说明“之所以提供这个答案，是因为您在问题中提到了‘X’和‘Y’”，建立情境关联。

准则13 & 14：出错时支持有效纠正 & 从错误中学习 这是建立长期信任的关键。一个糟糕的设计是：AI出错后，只给一个红色的“错误”提示，然后让用户自己重头再来。一个好的设计应该：

诊断与解释 ：尽可能说明哪里可能出了问题。例如：“抱歉，我可能误解了您的时间要求。您说的‘下周三’是指5月15日吗？我无法确定是因为您同时提到了‘下周’和‘15号’，而15号是周四。”
提供修正路径 ：提供最便捷的修正方式。如上例，直接提供“是5月15日（周四）”和“是5月16日（下周三）”两个按钮让用户选择。
隐性学习 ：如果用户通过上述按钮进行了纠正，系统应默默记录这个案例，用于优化未来的理解模型。并且，可以在后续合适时机告知用户：“根据您上次的纠正，我现在更清楚您的时间表达习惯了。”

4.3 如何利用准则进行设计评审？

我们团队已将这套准则制作成卡片，用于设计评审会。流程如下：

会前准备 ：设计者陈述设计方案时，需预先对照18条准则，说明自己的设计重点考虑了哪些，在哪些准则上存在权衡或暂时未解决。
集体评审 ：评审会上，参与者（包括设计师、产品、开发、算法）随机抽取3-5张准则卡片。
针对性提问 ：持卡人从自己手中准则的角度，对设计方案提出具体问题。例如，持“准则8：防止误操作”卡片的人可能会问：“当AI自动生成一段文本并插入文档时，如何防止用户误触保存而覆盖了不想保留的内容？有没有提供一键撤销或预览确认？”
记录与迭代 ：将讨论出的改进点记录在案，形成迭代任务。这种方法让评审会从主观的“我觉得不好看”转向客观的“这个设计在‘支持有效纠正’方面可能有所欠缺”，效率和质量都大幅提升。

5. 期望管理：如何让用户接纳不完美的AI？

即使遵循了所有设计准则，AI依然会出错。微软的第三篇论文《Will You Accept an Imperfect AI?》直击这个核心痛点： 用户接纳度不完全取决于准确率，更取决于对错误的预期和纠错成本 。论文研究了三种调整期望的模式：明确声明准确率、解释工作原理、提供性能控制。我们的实战经验与论文结论高度吻合，并有一些更落地的发现。

5.1 声明准确率：数字的游戏与陷阱

直接告诉用户“本功能准确率约85%”看似透明，但效果复杂。

对普通用户可能无效甚至反作用 ：大多数用户对百分比没有直观感受。“85%”是高是低？他们会用这个数字作为绝对标准，一旦遇到错误，就会归因为“那15%”，可能更沮丧。
对专业用户或高风险场景有效 ：在医疗、金融等领域，专业人士理解概率的意义。告知准确率有助于他们做出知情决策，决定在多大程度上依赖AI的输出作为参考。

我们的实践策略是情境化表达准确率 ：

不用抽象百分比，而用更直观的表述。例如，在邮件分类功能中，提示：“自动分类通常很准，但偶尔可能分错，建议您快速检查一下‘重要’文件夹。”
结合置信度进行差异化呈现。当AI对某个判断置信度很高时（>90%），可以自动执行并轻量提示（如一个小对勾）；置信度中等时（70%-90%），建议执行并请求确认（“建议归类为‘项目A’，对吗？”）；置信度低时（<70%），则只作为建议列出，不自动执行。

5.2 解释工作原理：构建合理的心理模型

比准确率数字更重要的，是帮助用户建立一个关于AI“如何工作”以及“为何会出错”的合理心理模型。论文中提到“解释如何工作”能提升接纳度，关键在于解释的 颗粒度和时机 。

避免过度技术化 ：不要说“本系统采用基于Transformer架构的预训练语言模型，通过注意力机制…”。用户不关心这个。
采用因果或类比解释 ：
- 因果解释 ：“我推荐这家餐厅，是因为它符合您‘评分高’、‘意大利菜’和‘市中心’的要求。” 如果出错了，可以解释：“抱歉，我可能忽略了‘评分高’这个条件，因为这家店是新开的，评分数据还不多。”
- 类比解释 ：“这个写作助手就像一个经验丰富的编辑，它会根据大量优秀文章的模式给您建议，但它不一定完全理解您独特的个人风格。”
在出错时提供解释 ：这是解释最有价值的时机。错误解释应与纠正行动紧密结合。例如，AI错误地合并了两个同名联系人，在提供合并撤销选项时，可以解释：“我将‘张三（销售部）’和‘张三（市场部）’合并了，因为他们姓名和公司相同。如果您需要分开，可以点击撤销。”

5.3 提供用户控制：赋予掌控感以换取包容度

这是提升用户接纳度最有效的手段之一。当用户感到自己对AI的行为有最终控制权和调整能力时，他们对错误的容忍度会显著提高。论文中提到的“允许用户控制AI性能”正是此意。

我们将其具体化为几种设计模式：

灵敏度/严格度调节器 ：例如，在垃圾邮件过滤中，提供从“宽松”到“严格”的滑块。向用户说明：“调到‘严格’时，几乎不会有垃圾邮件漏进来，但偶尔可能误判正常邮件；调到‘宽松’时，确保不错过任何正常邮件，但垃圾邮件可能会多一些。” 让用户根据自己的风险偏好（怕错过重要邮件 vs. 讨厌垃圾邮件）进行权衡。
偏好与规则设置 ：允许用户明确告诉AI自己的偏好或规则。例如，在智能日历调度中，用户可以设置“所有会议默认安排在工作时间”、“避免在午休时间安排会议”、“与客户A的会议至少预留1小时”。AI在这些明确规则内运作，即使其他方面有误差，用户也会觉得系统尊重了自己的意愿。
输出粒度选择 ：对于生成式AI，提供不同详细程度或风格的选项。比如，摘要功能可以提供“仅要点”、“详细摘要”和“带关键引文”三种模式。用户选择了某种模式，就对输出的范围和形式有了预期。
学习开关与反馈循环 ：明确告诉用户“您可以通过纠正我来帮助我学习”，并提供便捷的反馈入口（如“这个建议没用”、“这个分类错了”的按钮）。当用户看到自己的反馈确实让AI后续行为有所改善时，会获得强烈的参与感和掌控感。

5.4 错误成本设计：被忽视的关键因素

论文中一个非常深刻的发现是： 即使整体准确率相同，用户对避免“假阳性”错误和避免“假阴性”错误的AI，接纳度也不同 。这背后是“错误成本”的差异。

假阳性（False Positive） ：AI说“有”，但实际上“没有”。例如，安全系统误报警（把好人当坏人），邮件系统误判重要邮件为垃圾邮件。
假阴性（False Negative） ：AI说“没有”，但实际上“有”。例如，安全系统漏报威胁（把坏人当好人），疾病筛查漏诊。

通常， 假阳性的纠错成本（解除误报警、从垃圾箱找回邮件）往往低于假阴性带来的后果（安全漏洞、延误治疗） 。因此，在医疗、安防等领域，系统宁可多些误报（假阳性），也不能漏报（假阴性）。设计时必须考虑：

明确系统偏向 ：向用户说明系统的设计倾向。例如，“本安全监测系统偏向于敏感，可能会产生一些误报警报，以确保最大程度的安全。”
设计差异化的恢复流程 ：对于高成本的假阴性错误，恢复流程可能非常复杂甚至不可逆。因此，对于可能产生假阴性的场景，设计上要增加确认环节或二次验证。例如，在重要文件删除前，即使AI判断为“可删除”，也强制要求用户手动确认。

6. 贯穿全程的设计验证：如何测试动态的、会出错的系统？

传统的可用性测试方法在AI产品面前需要升级。我们不能再只关心“任务完成时间”和“错误点击次数”，而要关注用户的心理模型建立过程、信任度的变化以及对错误的反应。

6.1 测试重点的转移

理解度测试 ：在用户首次接触AI功能后，通过访谈或问卷，测试他们是否理解了系统能做什么、不能做什么、以及大致如何工作。例如：“你觉得这个写作助手是根据什么来给你建议的？”
信任校准测试 ：在用户使用一段时间后，观察他们对AI建议的采纳率。是盲目相信，还是完全不信，还是能合理地选择性采纳？这反映了用户心理模型是否准确。
错误恢复测试 ：故意在测试场景中设置一些AI会出错的环节（当然，要符合伦理，事后向用户说明），观察用户如何发现错误、有何情绪反应、是否能利用你设计的机制（解释、纠正控件）顺利恢复。这是检验准则13-16设计效果的关键。
长期体验研究 ：招募一批用户进行为期数周甚至数月的跟踪研究，记录他们使用频率、满意度、信任度的变化，以及当AI行为因更新而发生变化时用户的反应。这对于评估准则17-18至关重要。

6.2 原型保真度的选择

探索概念阶段（笔记本阶段） ：使用最低保真度的“笔记本”原型，重点测试用户意图和AI回应的匹配度，收集用户对多种可能输出的偏好。
验证交互模式阶段 ：制作可交互的中保真原型（例如在Figma中使用一些插件模拟AI响应），测试具体的UI控件和交互流程，如用户如何纠正AI、如何调整设置。
评估完整体验阶段 ：必须使用连接了真实或高度仿真AI后端的高保真原型或Beta版产品。只有真实的、带有不确定性的AI输出，才能引发用户真实的信任、困惑或挫折反应。

6.3 数据与定性研究的结合

定量数据（如准确率、采纳率、使用时长）很重要，但不足以理解“为什么”。必须结合深度的用户访谈、出声思考法和日记研究等定性方法。

为什么用户拒绝了一个正确的建议？ 可能是因为解释不够清晰，导致用户不信任。
为什么用户容忍了一个明显的错误？ 可能是因为纠正确实非常方便（一键撤销），或者用户当时有更紧迫的任务。

设计AI系统是一场持续的对话，不是在用户和界面之间，而是在用户的期望与系统的能力之间，在人类的直觉与机器的概率之间。作为设计师，我们的角色不再是创造完美的工具，而是搭建一座坚固而灵活的桥梁，管理好两端的落差，让协作得以顺畅进行。这个过程充满挑战，但也正是其魅力所在——它迫使我们将设计思考从界面表层，深入到认知、心理和关系的层面。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

《LangGraph 开发AI Agent 实践》—— 手把手教你构建有状态的复杂工作流智能体

AI Agent技术社区

AI Agent 全日制30天速成｜Day3 笔记

支持向量添加、批量入库、相似度TopK检索支持向量与原文映射存储（索引→文本元数据）百万级以内向量检索速度极快，适合学习阶段使用。

AI Agent技术社区

Agentic Skill Routing 实战：别再把所有 Skill 塞进 AI Agent 上下文

Skill。短期看很灵活，长期看就会把 Agent 的路由入口堆成一片噪声。我最近在想的不是“再训练一个更准的 Skill 分类器”，而是另一个问题：Skill 能不能像知识库一样被 Agent 主动检索？常用能力保持在手边，长尾能力先放进冷存储；需要时，Agent 自己搜索、检查证据、确认选择，再把对应 Skill 拉回来执行。这其实就是。