本文转载 thenewstack.io,已获原作者 Joanna He 授权翻译。本篇博客旨在分析指标中台和语义层这两大解决方案之间的异同,希望对大家有所启发。
过去二十年间,数据架构的市场格局发生了一系列重大变化。仅在过去的十年中,许多企业已经从传统的本地 BI/DW(商业智能与数据仓库)架构演进为 Hadoop 这种基于大数据的分布式架构。随着云计算技术日益普及,数据环境正迎来新一轮的转变,逐渐向云原生架构演进。
在当今市场占主导地位的数据架构与先前几代技术截然不同。现代数据栈的核心包括云数据仓库(例如 Snowflake、亚马逊 Redshift 及谷歌 BigQuery 等)、云数据湖(例如 Databricks)和数据湖仓。
这样的行业变化是如何产生的?简单地说,主要原因有三:云数据仓库和云数据湖技术能够帮助企业以低成本存储海量数据,运行此类技术门槛低,以及支持按使用量付费(即用即付)。此类技术凭借这三点优势受到了广大企业的青睐。
为什么需要使用语义层或指标中台?

数据架构的新范式并非没有局限性。数据平台使用数据的方式未必与企业需求完全一致,数据分析人员和决策者无法利用数据平台充分挖掘数据价值,实现创新。
为什么会出现这样的情况?
首先,许多企业最有价值的数据资产被隔离在本地计算机、数据中心以及云服务中,如何将它们统一起来不啻为一项重大挑战。由于通常缺乏标准化的数据和业务定义,企业很难充分挖掘其数据的价值。当启动新的数据管理项目时,应当先着手解决此问题,但出于各种原因,不少企业反而选择回避,导致企业内部出现新的数据孤岛。
其次,对大多数业务用户而言,理解仓库中的数据并非易事,这一点在数据仓库行业已人尽皆知。在业务用户眼中,表名、列名和数据类型等技术元数据毫无价值,数据仓库无法满足他们自行开展数据分析的需求。
从业务用户的角度来看,要如何解决这一难题?
当下有两种解决方案广受欢迎,分别是指标中台和语义层。相较而言,哪一种更为有效?这两者之间有何区别?
接下来,我们将揭秘指标中台和语义层,帮助您理解这两大解决方案之间的异同,助力企业积极应对上文提及的种种挑战。
什么是指标中台?

指标中台,简单来讲,就是位于上游数据仓库/数据源与下游业务应用之间的中间层。指标平台、Headless BI、指标层、指标中台,这四个术语表达的都是同一个概念。
不同于传统的商业智能报表,指标中台将指标定义从商业智能报告及可视化中独立出来。负责管理指标的团队在指标中台上定义一次指标,统一指标口径,后续在商业智能、自动化工具、业务工作流和高级分析操作中就可以重复使用这些定义,保证指标定义的一致性。
什么是语义层?

语义层是一种面向业务的数据表达,允许终端用户使用传统业务术语独立访问数据。语义层通过将复杂数据转换为常见的业务术语(例如产品、客户及营收)来实现上述目的,并且能在企业内构建统一的整合式数据视图。
语义层通常包含度量数据(例如销售额、距离、持续时间以及重量),支持求和或(和)平均值,还包括维度(例如销售代表、城市及产品),支持对数据进行分段、过滤或分组。此外,在此基础上可构建指标和关键绩效指标(KPI),作为追踪和评估绩效的可量化度量。
语义层与指标中台之间的相似之处

用户画像:语义层和指标中台都支持不同角色进行数据分析,例如消费者、探索者、创新者及专家。
价值:语义层和指标中台都支持以下业务优先事项。
结果导向:语义层和指标中台的建设都应与组织机构的总体目标对齐。
终端用户友好:语义层和指标中台均惠及业务侧终端用户。数据可供更大范围的用户群体访问,更灵活,支持更复杂的分析,并且更经济实惠。
复用性和可用性:语义层和指标中台均可作为单一信息源,不仅易访问,还能集成到应用程序和工作流中,支持在不同的系统、被不同的用户重复使用。
安全性:对于这两种解决方案,治理、高级身份认证、安全访问及安全管理共同构成其安全性的核心组件。
成本和 SLA 优化:语义层和指标中台均可构建高性能、可靠的平台,以最低廉的成本提供高品质的数据。
语义层与指标中台之间的不同之处

覆盖范围:语义层提供一组业务友好的逻辑数据模型、度量和指标,而指标中台仅提供一组业务友好的指标。在指标中台,数据模型通常由底层数据源控制,例如数据仓库或数据集市。
易用性:在某些情况下,语义层可能较为复杂,终端用户无法使用、定制或更新语义层,依赖 IT人员进行维护和更新,最终导致业务用户只能消费语义层。指标中台则通常提供 UI 或代码两种方式进行指标定义,帮助业务用户生成并更改指标,助力企业实现更大程度的自助分析,从而促进指标中台被业务部门接受和使用。
虚拟与物理存储:大多数指标中台的指标层是作为一个虚拟抽象层存在的,包含面向业务的指标逻辑。数据很少被物理存储在指标中台的指标层中。通常指标中台将指标逻辑转换为底层数据源查询,由相应数据源负责数据存储。而语义层位于数据源和下游应用之间,既可以是虚拟层,也可以是物理层。语义层通过一系列性能优化技术(例如下压、中间服务器、缓存和预计算),在各种数据源和分析用例中实现良好的性能表现。
查询语言:部分语义层方案支持 MDX 查询,而基于现代数据栈的指标中台通常是基于 SQL 语言的。
位置选项:语义层可以构建在各类分析与商业智能(A & BI)工具、数据集市、数据仓库、查询加速器、知识图/数据编织,以及独立的虚拟化平台之上。供应商提供的许多语义层解决方案同时支持本地和云端部署。由于指标中台的概念本身起源于现代数据栈,因此指标中台一般建立在数据仓库和数据湖之上。
综述

未来数据领域的市场格局将会是什么呢?越来越多的人开始关注对指标中台或语义层之类产品的需求;在不远的将来,数据可能不再存储在大量数据仓库中,而是全部存到数据湖上。
对于有意采用指标中台或语义层的企业,早期践行者们指出「让用户能够接受是成功的关键」。
即便各团队一致认为需要一个统一的数据层,想让各个部门的人员接受并将其融入工作流程中绝非易事。但如果能够克服这一挑战,在企业内成功落实指标中台或语义层,企业将收获巨大的竞争优势。
想了解更多企业级指标中台内容,欢迎大家扫描下方二维码或点击「阅读原文」,获取指标中台白皮书

关于 Kyligence

上海跬智信息技术有限公司 (Kyligence) 由 Apache Kylin 创始团队于 2016 年创办,致力于打造下一代企业级智能多维数据库,为企业简化数据湖上的多维数据分析(OLAP)。通过 AI 增强的高性能分析引擎、统一 SQL 服务接口、业务语义层等功能,Kyligence 提供成本最优的多维数据分析能力,支撑企业商务智能(BI)分析、灵活查询和互联网级数据服务等多类应用场景,助力企业构建更可靠的指标体系,释放业务自助分析潜力。
Kyligence 已服务中国、美国、欧洲及亚太的多个银行、证券、保险、制造、零售等行业客户,包括建设银行、浦发银行、招商银行、平安银行、宁波银行、太平洋保险、中国银联、上汽、Costa、UBS、MetLife 等全球知名企业,并和微软、亚马逊、华为、Tableau 等技术领导者达成全球合作伙伴关系。目前公司已经在上海、北京、深圳、厦门、武汉及美国的硅谷、纽约、西雅图等开设分公司或办事机构。

点击「阅读原文」下载白皮书




