第十四篇:BI的解耦先行——Headless BI与指标平台的启示
分析逻辑在云端,查询执行在本地——DISC架构“逻辑能力”流动的商业验证
一、当“看板”不再绑架数据
一家零售企业的数据分析师小王,在Tableau上拖拽出一张完美的周报看板。销售额趋势、毛利率分布、各门店坪效排名——每一张图表都恰到好处地回答了业务问题。她想把这张看板嵌入到企业微信的工作台中,让区域经理们每天早上打开手机就能看到。[1]
然后她发现,这条路步步荆棘。
要把看板嵌入企业微信,需要把看板发布到Tableau Cloud。而Tableau Cloud意味着数据要上传到云端。当她把数据连接切换到云端版本时,IT部门立刻介入:“销售明细包含客户信息和门店营收,属于公司核心商业秘密。数据出域需要安全审批,周期至少三周。”
她退一步说,那不发布到云端,直接把本地Tableau Desktop做好的看板导出成静态图片发给大家?区域经理们问:“为什么不能像以前一样交互筛选?我想看自己管辖的华东区数据。”
她再退一步,说那用公司的私有化部署BI平台。但私有化版本比云端SaaS落后三个版本号,她想要的高级分析功能根本不支持。而且每次更新看板都得走IT的变更管理流程——审批、上线、测试——周期以周计。
这个场景,几乎每一家有数据分析需求的企业都在经历。传统BI工具的底层架构——无论是Tableau、Power BI还是国产的FineBI——都有一个共同的紧箍咒:数据连接、查询引擎和可视化界面是深度绑定的。 数据存在哪里,查询就在哪里执行,图表就在哪里渲染。你想在云端协作开发和分享看板?那就把数据搬上云端。你想把数据牢牢留在本地?那你就忍受私有化版本的协作匮乏和版本滞后。
这是我们在第一篇中描述的那个“不可能三角”在BI领域的精确投影。SaaS BI提供极致的协作和敏捷,但代价是数据主权。私有化部署保障数据本地化,但代价是创新停滞。鱼和熊掌,在传统架构下不可兼得。
Headless BI的答案是:把BI的“灵魂”——指标定义、查询逻辑——从“身体”——数据存储——中抽离出来,让灵魂在云端协作,身体留在本地执行。这正是DISC架构“逻辑能力”流动的典型应用。指标定义是逻辑能力,它们在云端控制面被管理和版本化。查询SQL是执行指令,它们被下推到本地数据面执行。聚合结果是价值提取,明细数据从未离开本地。
二、Headless BI——砍掉“脑袋”的BI为什么更强
传统BI的紧身衣
传统BI系统由三层组成,像一个三明治。最底层是数据连接器,连接数据库、数据仓库或数据湖。中间层是查询引擎和OLAP缓存,负责将用户的拖拽操作翻译成SQL,执行查询,并将结果缓存到内存中以加速后续分析。最上层是可视化层,将数据渲染为图表、表格和仪表盘。
在这个三明治里,三层是紧耦合的。数据连接器绑定到特定的数据源,查询引擎与可视化层共享内存,图表直接调用内部的查询接口。你想把可视化层搬到云上做协作?可以,但查询引擎也得跟着上云——于是数据必须跟着查询引擎一起上云。你想把数据留在本地?可以,那整个三明治都必须在本地。这不是一个可以“部分搬迁”的架构。它是一体的,要动全动。
这让企业陷入了两难。选择公有云SaaS BI——数据上云,敏捷协作,但合规风险高悬。选择本地私有化部署BI——数据安全,但失去SaaS的持续更新、协作和免运维优势。混合部署尝试在两者之间取巧,结果是两套独立的系统、两个独立的工具集,分析逻辑无法统一,指标口径日益分裂。
Headless BI的“分身术”
Headless BI的思路,是把这三层之间焊死的螺丝拧开。[2]
它的核心主张是:砍掉可视化“脑袋”,只保留核心分析引擎。将指标定义、维度建模、查询生成这些纯粹的逻辑功能,抽象为一个独立的API服务。可视化界面不再是BI厂商的专有前端,而是任何可以调用API的应用——可以是企业自己的门户、可以是钉钉里的机器人、可以是AI Agent的思考工具、可以是嵌入到ERP审批流里的智能卡片。
架构随之发生了根本性的裂变。控制面——指标的定义、维度的建模、权限的配置、缓存的策略——全部托管在云端SaaS。数据面——SQL的执行、数据的聚合、明细数据的存储——全部保留在企业本地。
当用户在前端发起一个查询——“本月华东区毛利率”——前端将这个自然语言查询翻译为API调用,发送到云端控制面。控制面解析出涉及的指标和维度,生成一条优化后的SQL语句。这条SQL不是被送到云端去执行,而是通过加密通道下发到企业本地数据仓库。本地数据仓库执行SQL,完成聚合计算,只返回一个微小的结果集——可能只是一个百分比数字。云端控制面收到这个聚合结果,按照指标定义的格式封装,返回给前端。前端将它渲染为图表上的一条线。
整个过程,企业原始明细数据从未离开本地。云端只经手了两样东西:指标定义——这是一种纯粹的元数据,不包含任何业务记录;聚合结果——这是原始数据经过深度加工后的最终产物,已经失去了可逆推的单条明细。
三个不可逆转的优势
数据主权架构下的Headless BI,带来了三个传统BI无论怎么努力都做不到的优势。
第一个优势:数据本地化,且无需妥协协作。在传统模式下,选择本地化意味着放弃云端协作。在Headless BI模式下,云端控制面托管的是指标逻辑和协作工具,本地数据面执行的是数据查询。两者通过API解耦之后,数据可以严格本地化,但数据分析团队仍然可以在同一个云端工作台上协作定义指标、迭代看板、复用模板。地理边界不再割裂协作体验。
第二个优势:统一指标,且无需妥协灵活性。这是Headless BI最被低估的杀伤力。“月活用户”这个指标,在传统BI模式下可能出现在几十张看板里。每张看板的作者可能对这个指标有自己的理解——是登录即算活跃?还是完成核心操作才算?久而久之,“月活”变成了一个在不同看板里有不同数值的薛定谔指标,开会成了吵架大会。在Headless BI模式下,“月活用户”只需在控制面的指标模型中被定义一次。所有看板、所有报表、所有嵌入应用、所有AI Agent,调用的是同一个指标API。一个地方改了,所有消费方同步更新。
第三个优势:前端自由,且无需妥协一致性。企业不再被BI厂商的可视化框架绑架。指标逻辑是独立的,展现层可以是任何技术栈——React、Vue、小程序、企业微信卡片。企业可以用自己的设计系统、自己的品牌规范、自己的交互习惯来构建分析界面。但无论前端怎么变,背后调用的指标API是同一个,数据口径是一致的。
DISC架构解读
Headless BI是DISC架构“逻辑能力”流动的BI领域实现。第五篇我们定义了逻辑能力——在数据上执行判断的能力,以版本化的策略代码包形式流动。Headless BI的指标定义和语义模型,正是逻辑能力在分析场景的具体形态。它们在云端控制面被管理和版本化——对应DISC能力注册中心的元数据管理功能。查询SQL是“执行指令”——它们被能力编配器下推到本地数据面执行。聚合结果是“价值提取”——明细数据从未离开本地。治理能力体现在权限策略和缓存策略中——谁可以访问哪个指标、查询结果缓存多久、是否需要脱敏。
这完美对应DISC架构“数据不动,能力流动”的核心原则。数据面持有原始明细数据,控制面管理指标逻辑,能力流动发生在控制面到数据面的SQL下发链路中。
三、先锋实践——Cube Cloud与dbt Cloud的“逻辑云+执行地”
理念讲得再好,不如看谁已经跑通了。
Cube Cloud:指标API工厂
Cube是Headless BI领域最受瞩目的实践者之一。它的核心产品Cube Cloud,就是一个典型的“控制面在云、数据面在本地”的架构。[3]
Cube的工作逻辑是这样的。分析工程师用代码定义数据模式——这是一份声明式的YAML或JavaScript文件,描述了指标和维度分别对应底层数据库的哪些表和字段,以及它们之间的关联关系。比如,一个“毛利率”指标,定义文件里声明它等于销售收入减去销售成本再除以销售收入,其中销售收入来自Oracle的销售事实表,销售成本来自SQL Server的成本维度表。这份定义文件是纯粹的元数据,不包含任何一条实际的销售记录。
定义文件被托管在Cube Cloud的云端控制面。全球不同团队的分析师可以在这个控制面上协作修改定义,提交pull request,合并后自动发布为新版本的指标模型。
当分析看板发起查询时,Cube Cloud接收查询请求,解析涉及的指标和维度,在云端完成查询编译——生成优化的SQL,包含聚合函数、多表关联、过滤条件。然后,这条SQL不是被Cube Cloud自己执行,而是通过加密的安全连接器,发送到客户VPC内部的数据仓库——Snowflake、BigQuery、Redshift或者自建的PostgreSQL。
数据仓库在本地执行SQL,完成计算,返回聚合结果。Cube Cloud还可以将高频查询的结果缓存在客户自有的Kubernetes环境中——这个组件叫Cube Store——实现完全的本地化缓存。云端控制面只接触查询的元数据指纹,看不见查询结果的内容。通过零信任连接方案,Cube Cloud只能看到查询的结构信息——涉及哪些指标和维度——但看不到查询返回的实际数值。
Cube Cloud的商业模式就是典型的能力订阅:按查询调用量或缓存构建的数据量收费。它在Headless BI领域的稳定盈利,证明了“逻辑能力SaaS化、数据本地化”不是实验室里的技术演示,而是客户愿意持续付费的商业服务。
从DISC架构的视角看,Cube Cloud的数据模式定义文件是逻辑能力——它们在云端注册、版本化、协作开发。查询SQL的下推执行是能力编配器的BI实现——将计算指令分发到数据所在地执行。Cube Store是数据面的缓存层——高频查询结果在本地持久化,进一步减少数据外泄风险。
dbt Cloud:数据转换的远程代理
如果说Cube是分析层的解耦,dbt则把解耦推进到了数据工程层。[4]
dbt是一个用SQL定义数据转换逻辑的开源工具。它的核心理念是:分析师写SELECT语句,dbt负责将它们编译成CREATE TABLE AS SELECT的物化任务,在数据仓库中执行。所有转换逻辑以代码形式管理,天然支持版本控制、测试和文档生成。
dbt Cloud是它的商业SaaS版本。分析师在dbt Cloud的Web IDE中协作开发SQL数据模型,云端负责版本管理、CI/CD编排、文档生成和团队协作。但关键在于,实际运行时,dbt Cloud并不在自己的服务器上执行这些SQL。它通过一个轻量级的“执行代理”,安装在企业本地网络内,远程触发企业的数据仓库执行。
这意味着:所有的数据转换逻辑在云端协作开发,但所有的SQL执行都在本地完成。原始数据和中间表全程留在本地数据仓库,只将执行状态和日志摘要回传到云端,用于监控和调度。
从DISC架构的视角看,这是“逻辑动、数据不动”原则在数据工程核心环节的实践。dbt Cloud托管的SQL转换逻辑是逻辑能力——它们在云端协作开发。本地执行代理是能力编配器在数据转换场景的特化——接收云端指令,在本地执行,数据不出域。
GoodData.CN:可下载的“指标胶囊”
如果说Cube Cloud是“推理即服务”模式的典范,GoodData.CN则展示了DISC架构的另一种形态——能力下载模式。[5]
GoodData.CN是该公司的“无数据”BI平台。它的整个分析引擎——指标定义、语义模型、查询编译、缓存策略——被打包为一个容器镜像。企业从GoodData的云端控制面下载这个镜像,部署到自己的Kubernetes集群中。指标定义和语义模型定期从云端同步,但所有查询执行、数据缓存和结果渲染百分之百发生在本地。云端只负责“定义”的版本管理和分发。
这与我们在之前篇章讨论的AI能力下载模式如出一辙:整个分析能力被打包成了一个可以在本地独立运行的胶囊。它在本地处理企业最敏感的明细数据,同时通过云端获取持续更新的指标逻辑和功能升级。从DISC架构的视角看,这是“能力即资产”模式在BI领域的完整实现。
四、指标平台——业务逻辑的“胶囊化”与治理
Headless BI的普及,催生了一个更深层的概念:指标平台。[6]
传统BI治理的对象是“看板”。IT部门审核看板的数据源是否合规、看板的权限设置是否正确、看板是否引用了最新的数据。但看板只是指标的“消费者”,不是指标的“定义者”。同一个“月活”,在十张看板里可能以十个不同的口径存在。治理看板,治标不治本。
指标平台的理念,是将治理对象从“看板”下沉到“指标”本身。指标不再是看板里的一个字段配置,而是一个独立治理的、有生命周期的、单一事实来源的业务逻辑实体。它有自己的定义、自己的所有者、自己的版本、自己的审批流、自己的发布状态。
从DISC架构的视角看,指标就是企业内部的“逻辑能力胶囊”。每个指标封装了一段明确的计算逻辑和业务规则。它消费底层数据,产出计算结果,对外提供标准API。所有看板、报表、AI Agent、自动预警——都是这个胶囊的消费者。
这形成了一个企业内部的能力市场。业务部门定义并发布指标胶囊,应用开发者在指标目录中发现并调用它们。运营团队的“活跃用户”指标,财务团队的“人效”指标,供应链团队的“库存周转天数”指标——各自独立治理,共同组成企业的指标资产。指标平台的技术实现通常基于Headless BI架构,增加更强的语义层和治理能力——指标的版本管理、生命周期状态、审批流——这些功能对应DISC能力注册中心的治理功能在分析场景的特化。
五、BI为什么能先行
将BI的实践与之前的AI实践对比,一个有趣的问题浮现出来:为什么BI领域率先跑通了DISC架构的商业闭环?
第一,计算形态的天然适配。BI查询本质上是声明式的——SQL就是声明式计算的典型。声明式计算天然适合“逻辑分发+本地执行”的分离模式。云端将逻辑编译成SQL,下推到本地执行。而AI推理是过程式的——张量计算、多层网络前向传播——分离的难度更高。BI继承了SQL数十年积累的标准化红利。
第二,行业痛点的烈度和普遍性。BI是“全民工具”,从CEO到运营总监都在用。当“一个数字两个版本”的混乱开始在管理会议上消耗时间、引发争论、导致决策失误时,组织疼痛感受非常直接,付费意愿迅速形成。相比之下,AI模型漂移的后果是渐进式的——推荐系统的精度慢慢下降,定价模型的偏差悄悄变大——痛感不那么尖锐。
第三,标准化程度。SQL是过去四十年几乎没有变过的数据语言[7]。不同数据库的SQL方言有差异,但核心语法和语义高度统一。数据虚拟化引擎和连接器生态的成熟度远高于AI模型格式。BI的集成成本显著低于AI。
这些差异解释了为什么BI成为DISC架构的先行者。但更重要的是,它为更复杂的场景趟出了一条路。那条路的核心经验是:用开放标准解耦逻辑与数据,用云端控制面管理定义,用本地数据面执行计算。这一范式在BI领域验证过,正在向AI领域延伸,最终将挑战那个最坚硬的堡垒——ERP。
六、逻辑与数据的和平分手
Headless BI和指标平台,是DISC架构在分析领域的先头部队。它们用SQL这个诞生于1970年代的古老语言,率先实现了“逻辑与数据分离”的架构梦想。指标定义托管在云端,查询执行发生在本地,明细数据永不出企业边界。
第五篇我们定义了DISC架构的三类能力体,其中逻辑能力是“在数据上执行判断的能力”。本章正是逻辑能力流动在BI领域的完整实践展开。第六篇的能力注册中心和编配器,在Cube Cloud和dbt Cloud的产品架构中找到了对应的工程实现。
BI和AI的解耦都已经有了可运行的工程实践。但接下来,我们要挑战企业软件体系中最复杂、最坚硬的一块骨头——ERP等核心业务系统。薪酬核算、成本分摊、智能排程——这些深度耦合、强状态依赖、牵一发而动全身的模块,能否被解耦为独立安全运行的能力胶囊?
下一篇,我们向最难处攻坚。
当BI教会了我们如何让逻辑与数据和平分手,ERP的“胶囊化”虽难,却不再是痴人说梦。
引用内容注释与来源说明
[1] 开篇场景:数据分析师小王的场景为基于企业BI应用痛点的虚构典型化描写,用以引出传统BI在数据主权与敏捷协作之间的矛盾。场景中的人物、企业名称及对话均为创作。Tableau为Salesforce旗下数据可视化产品,此处作为传统BI工具的代表提及。
[2] Headless BI概念:Headless BI是一种将数据分析的后端逻辑(指标定义、查询引擎)与前端展现层分离的架构范式。其核心理念是开放分析能力APIs,使任何前端应用都能消费统一的指标和查询服务。关于Headless BI的定义可参考Cube.dev等厂商对这一概念的阐述。
[3] Cube Cloud:Cube是一个开源的分析API平台,其商业化云服务Cube Cloud允许用户在云端定义数据模式和指标,而查询执行下推到客户本地数据仓库。其Zero-Copy数据访问和安全控制实现了指标逻辑与原始数据的分离。官网及架构说明:Cube — The agentic analytics platform built on a semantic layer
[4] dbt Cloud:dbt(data build tool)是一个开源的数据转换工具,dbt Cloud是其商业SaaS版本。分析师在云IDE中协作编写SQL转换逻辑,通过部署在客户环境中的执行代理在本地数据仓库执行,数据不离开客户环境。参见dbt Cloud产品文档:https://docs.getdbt.com/docs/cloud/about-cloud
[5] GoodData.CN:GoodData.CN是一个“无数据”分析平台。它提供将完整的分析引擎(语义模型、查询引擎)打包为容器镜像的能力,企业可将其下载并部署在自己的Kubernetes环境中,所有查询执行和数据驻留完全本地化,云端仅管理指标定义的同步。参见GoodData.CN产品页面:Agentic Analytics | GoodData.AI
[6] 指标平台概念:指标平台(Metrics Layer / Metrics Store)是一种新兴的数据基础设施,旨在提供一个中心化的仓库来定义、管理和计算关键业务指标。它向下对接数据仓库,向上统一服务所有分析应用,解决了BI时代指标口径不一致的难题。对该概念及其行业影响的深入阐述可参考Benn Stancil的系列文章及相关行业报告。
[7] SQL语言的提出:SQL(Structured Query Language)最早由IBM研究员Donald D. Chamberlin和Raymond F. Boyce在1970年代初基于Edgar F. Codd的关系模型理论开发。首个商业实现可追溯至1979年的Oracle V2。SQL已成为关系数据库管理的国际标准语言(如ISO/IEC 9075)。
更多推荐

所有评论(0)