上一篇文章发布以后,吸引了很多行业小伙伴的注意,经过交流,我也从他们那里吸收了很多新的知识,因此,这里对Data Integration部分做一个进一步的阐述。
虽然Snowflake生态中的Data Integration部分有非常多的合作方,但是每一个产品定位都有非常大的区别。以Fivetran和Dbt Labs为例,有一张图可以比较形象地描述他们之间的关系:

FiveTran主要的能力在数据源的链接和数据的加载上,之后可以通Dbt Labs无缝对接,在Snowflake等云数据仓库中对数据进行转换、测试、部署,同时可以进行版本控制、数据流监控预警以及日志采集和处理等工作。
Fivetran的代码量不大,很多拖拖拽拽或者是用户友好的交互界面,Dbt Labs的功能特点类似阿里的Dataworks,在ETL的Transfoms部分功能很强大, 允许分析师自己写代码、控制版本并做线上发布,而不用直接上数据仓库服务器去操作。Dbt Labs的操作界面可以参考下图:

在另外一篇文章《现代数据基础设施的新兴架构 |至澄分享》中,通过对data pipline的梳理,将各家产品的定位做了一个比较清晰的描述,可以参考下图(此部分感谢来自唯品会的大数据平台负责人 王新春 在群内的分享)。

当然,为了将示意图画的比较有可读性,文章作者省略了许多横跨多个数据流的产品,比如Dbt Labs除了做Data Modeling,同时也拥有Workflow Manager的能力;Databricks虽然以Datalake起家,但是现在也切入了Data Warehouse领域,创始人之前还与Snowflake打口水仗(参考文章:《从Databricks和Snowflake之争,再谈湖仓一体化架构》)。
能够看到一个比较有意思的趋势就是,虽然大家的切入点不一样,但是Data Integration的各家,在客户群体做大了以后,都会有意无意的往data pipline的上下游进行扩张。而大的公司,比如AWS、Google等,更是通过资本,直接对数据基础设施的上下游进行大肆收购,跟Snowflake的动作非常类似。这也能够说明,只要公司创始人的整合能力足够强,在资本的加持下,data pipline上下游的服务具有很强的可整合性。
Business Intelligence (BI)
与Data Integration中独角兽公司层出不穷的活跃态势不同,BI领域的巨头玩家比较多,而新兴的玩家比较少——在21家合作伙伴中,来自上市公司或者是被上市公司收购的合作伙伴有14家,刚好占比2/3。我的判断是国际上整体BI类产品的创业趋势已经达到一个瓶颈,大的格局尘埃落定。快用云科的周海鹏则表示云原生的BI产品目前还比较少,可能未来会是一个重要的发展方向。这点在国内尤为明显,具体国内的情况,跟本次主题无关,以后有机会再同大家讨论。
他们的活跃起源于Tableau的横空出世和上市,终于Tableau被Salesfoce收购并退市、Looker被Google收购。在Snowflake的BI合作伙伴中,比较活跃的独角兽公司有Sigma Computing、Sisense、ThoughSpot、Pyramid Analytics、Mode、Atscale、Metabase等,其中估值最高的ThoughSpot为42亿美金,而Sigma Computing和Sisense的估值则在10-20亿美金之间。这部分公司近年累计融资19.8亿美金,不到Data Integration部分44亿美金的一半。
虽然创投不活跃,但并不代表着他们不重要,恰恰相反,BI产品可以说是云平台公司的必争之地,数据仓库应用的基础,没有之一。我们日常工作中,使用最频繁的数据应用也是BI。这也是为什么各大平台要不自己做,要不收购BI产品的原因。
Sigma Computing
Sigma Computing (下文简称Sigma)是一个纯云端的BI分析工具,所有的操作都在浏览器上完成。从Sigma的主界面大家就能看到,这个产品是一个纯纯的以数据分析、产生Insight和管理各类报表为核心的产品,没有多余的能力(有没有想到分析师们在硬盘中无数的分类文件夹?)。

它的核心服务都围绕着Workbook这个概念来进行。Workbook相当于一个工作组,包含了可视化的画布、多维分析、数据源编辑以及协同工作。除了大家日常喜闻乐见的各类图表,Sigma一个很重要的能力是提供可实时操作的电子表格,且可操作的数据量极大,在他们官网的demo视频中,能看到对一个4000万行的数据源的表格,进行实时的增删改查,并进行多位交叉分析和预测。这个能力还是非常吸引人。
Workbook部分,有以下几个核心能力:
统一的可协作画布
表格、图片、图表、文本、筛选等多元素合一。每个元素都可以连接单独的数据源。文本等信息可以实时修改,这意味着你在会议展示的时候可以随时地记录参会者的反馈,与其互动。

可交互的即席查询分析
选择任何图表可以直接下钻,获得实时查询结果,从视频看,肉眼看不到延迟,也就是说4000万行数据的查询在毫秒级完成。任意图表背后的raw data可以在列上随时增删,操作类似excel的函数计算式。

更快的用户体验
Sigma完全基于浏览器操作,也通过浏览器充分利用了本地机器的计算性能和缓存能力。首先在各类数据分析操作无非是执行各类查询语句,做Join、分类操作等,为了让整个数据分析的过程更加丝滑(提升用户体验),一方面本地电脑的CPU会参与一部分计算,此外计算结果会通过浏览器缓存到内存中方便后续重复操作时及时的提出数据结果。(以下为官方解释的原文:leverages the local computing power of your browser to execute certain queries, joins and sorts for data cached in browser memory. These operations finished in milliseconds improving the user's expeirence.)
任意分析页面可嵌入
Workbook本身就是一个网页,可以任意嵌入到其他系统中。而且在嵌入到其他系统之后,丝毫不会影响数据的可视化和可操作性,同时产品有独特的加密协议来保障数据的安全性。
这款产品的创始人是前端工程师,所以其在用户体验以及人机交互上,在行业确实非常领先。
大公司的产品们 Looker&Amazon Quicksight
Looker
在大公司的产品中,Looker的产品之前我是一直很喜欢的,他也是基于浏览器的一款云端BI工具。它被Google收购之后,同Bigquery做了深度的整合。同Sigma不同,Looker的计算能力全部依赖调用云端计算资源,也没有类电子表格的编辑功能,更多的是依靠SQL语句对数据源进行提前的分析并生成结果数据。
官网有一个美国COVID-19的数据源的分析案例,有兴趣的朋友可以实地操作感受下。
Amazon Quicksight
这款产品在2015年刚刚推出的时候,我就做过比较详细的分析(对着亚马逊的发布会做的听译),他的核心能力三个部分:
数据源整合工具Connector和Data Prep
基于内存的快速分析引擎SPICE
基于AI智能绘图的可视化工具QuickSight UI
详细分析内容可以参考我之前的分析文章:《亚马逊云BI产品QuickSight 深度解析》
还有个产品我也特别喜欢Power BI,他家的表格配色堪称一觉——好吧, 我承认我是视觉动物。不过限于篇幅,今天就不展开了,以后各位有兴趣我再跟大家讨论。
下一期我将继续介绍Machine Learning & Data Science的部分,敬请期待...
如果喜欢Business Intelligence (BI)里面的公司,可以参与下面的投票,投票多的话,作者会把这些公司单独拿出来做一期分析:
往期snowflake相关文章:
Snowflake生态深度分析一:Data Integration
Snowflake又购物了!为什么8亿美金收购Streamlit?
Snowflake投资Dbt labs和Dataops.live

喜欢本文的朋友可以【转发】【点赞】【在看】【收藏】【留言】哟
——作者简介——
| 刘洋,前阿里数据中台高级产品专家,全域数据中台总负责人,数据银行&生意参谋产品负责人。建有数据产品经理行业群,群员800余人,有兴趣的朋友可以加我微信【liuyangfjnu】入群讨论。 |






