

点击上方蓝字关注老阎杂货铺


最近跟一些朋友在交流我们做的东西,有些朋友会困惑大家都是在降低数据使用的门槛。那么与现在同样在现代数据技术栈中的那些用AI增强的BI产品有什么区别?从未来发展上,各自又会如何发展?今天我就简单来谈谈现在数据技术栈中的用AI增强BI的公司,以及我自己对这个行业发展的一些思考。
在展开之前,首先还是要进行一些基本概念的澄清。从最初的定义来讲,BI(商业智能)是一个很广的概念。可以说,目前现代数据技术栈中所有的公司的产品,都属于BI范畴。在我刚刚入行的时候(99年),那个时候BI项目讲的都是啤酒与尿布的故事,也就是通过关联挖掘找到商业机会。不是dashboard,也不是数据可视化,更不是大屏。
不过在那个时代BI的整个故事虽然好,但是大部分的情况下,当时BI项目最终服务的对象还是每个企业的管理层。企业花了很大代价,最终发现需要的就是那几张KPI报表。也正是因为这个客户需求场景的原因,敏捷BI逐渐产生。敏捷BI不再讲啤酒尿布的故事,更侧重在KPI、报表、可视化。也正是因为更聚焦在这一层,因此敏捷BI的实施周期更短,实施成本也更低。在国内则因为领导更喜欢大屏,于是国内的敏捷BI则更看重酷炫的大屏。
关于BI相关的历史和知识,有兴趣的可以参看BI、数据仓库、数据湖、湖仓一体都是什么?
· 在互联网,尤其是移动互联网产生之前,企业与自己用户进行互动的环境主要是在线下。企业能够收集到的用户相关的数据仅仅是自己的核心业务系统记录的那些数据,大部分是交易数据。BI在这种情况下,最适合也的确是企业的各种KPI报表。类似于啤酒尿布的这种关联数据挖掘,很多情况下故事好听,但是受限于没有数据。
· 互联网产生之后,企业与自己用户的互动开始逐渐从线下转到线上。而且触达的用户的渠道也逐渐都开始从传统媒体到线上的媒体。由于互联网天生是数字媒介,因此企业与自己的用户的互动的环境产生了更加多维数据。这使得企业可以使用更加多元的数据来进行分析、挖掘和决策。因此使用数据的场景开始从各种KPI报表向基于多元数据进行挖掘进行转移。
· 另外,互联网的实时在线属性,使企业即时与用户互动成为可能。这就要求企业能够更快速的处理数据,迅速的决策,基于数据进行快速的响应。数据使用者开始从决策层到各种日常运营转移。
· 公有云技术的发展,使得很多企业依赖的系统从内部自建迁移到云上的SaaS。而SaaS系统价格更亲民,使中小企业也可以基于SaaS实现自己的信息化。在有了SaaS为基础的信息化之后,结合各种基于SaaS的各种数据采集,中小企业也可以低成本得实现数字化,进而开始产生使用数据来帮助自己企业高效运营的需求。
也正是因为前面的各种变化的产生,新的一代的BI也顺应时代而产生。其中一种形态就是我们今天所要介绍的由AI增强的BI,或者更具体一些叫做搜索式BI。


什么是搜索式BI?


前面我们简单的介绍了BI相关的知识。在相当一部分人的心智当中,BI已经被定义为拖拽式的报表。这主要归功于过去敏捷BI对市场的教育。如果一个企业固定的看一些KPI报表,拖拽式BI是非常适合这个场景的。但是我们前面也提到了企业在使用数据的时候,场景开始发生变化。很多使用数据的场景开始向支持日常运营来转变,企业可能会有更多的不同层次的指标被计算和产生。在这种情况下,通过类似于互联网的一个输入对话框,通过输入一些业务问题或者指标,由系统自动地找到相关的指标并形成报表展现无疑更高效。这种基于搜索进行辅助业务决策的BI就是搜索式BI。
搜索式BI是一个比较新的形式的BI,在现代数据技术栈中,所处的位置属于数据分析范畴,跟传统的敏捷BI处于同一个使用数据的环节。如下图中的右上角:

我们可以以数据生命从产生到使用的生命周期阶段来画一个图:

这张图中,最左边是原始数据产生的地方。数据产生后,被数据集成工具把数据接入到数据湖中。这个时候数据还处于原始数据状态。数据建模和转换工具则负责把原始数据进行清洗,转换和建模,形成具备业务属性的数据模型,放入到数据仓库中方便后续的数据使用。
从上边这张数据从收集到使用的阶段我们可以看到,BI包括现在的搜索式BI,都处于最右侧,使用的是被清洗、转换和根据业务的需要进行建模后的数据。
搜索式BI相对敏捷BI最大的区别是使用数据的场景和方式有了区别。敏捷BI更侧重在根据KPI或者业务的需求从建模好的数据中拖拽出可视化图表,更适合企业做KPI仪表盘。而搜索式BI则更适合日常遇到运营问题,从整理好的数据中发现问题相关的关联数据。


搜索式BI相关的公司


接下来我们介绍一下在现代数据技术中搜索式BI相关的两个公司,分别是ThoughtSpot和Sisu data。
ThoughtSpot公司
公司所在地:旧金山
成立时间:2012年6月
创始人:Ajeet Singh, Amit Prakash等
融资规模历史:
一共融资12轮,总融资规模6.637亿美金
投资商包括:Lightspeed Venture, Snowflake Venture等等
目前估值:超过40亿美金
ThoughtSpot公司算是搜索式BI的最早的公司,公司的创始团队成员大部分来自于硅谷的互联网大厂。创始人Ajeet Singh是Nutanix的联合创始人。
经过10年的发展, ThoughtSpot在BI和数据分析领域已经成长为了一个超级独角兽。在Gartner的分析和BI的象限图里,ThoughtSpot上榜并在具有远见的象限中处于领先地位:

相信不久的将来,ThoughtSpot就会敲响IPO的钟声。
从产品角度来讲,ThoughtSpot的产品强调基于简单的搜索就能得到想要的结果。传统的敏捷BI是软件时代的产物,ThoughtSpot则是云上的分析平台。依赖的数据来源来自于数据仓库,这也是为什么Snowflake投资了ThoughtSpot的原因。
通过自己的搜索式分析引擎,ThoughtSpot能够快速地响应用户的搜索需求,个性化给出分析结果。
ThoughtSpot有自己的数据建模模块,可以用SQL基于数据仓库进行数据清洗和建模。也可以对接dbt,直接使用dbt生成的模型。
从商业化来看,ThoughtSpot支持团队版,专业版,企业版和嵌入式分析。收费表如下:

接下来我们介绍一下另外一个新的BI公司-Sisu Data
Sisu Data公司
公司所在地:旧金山
成立时间:2018年
创始人:Peter Bailis
融资历史:
融资总额:目前到C轮,三轮融资总额1.287亿美金
三轮投资商包括:Green Bay Ventures, NEA, A16z等等
估值接近10亿美金
Sisu是一家成立才四年左右的基于搜索和AI增强的新型BI公司。也是在现代数据技术栈中的BI公司。关于Sisu的特点以及Sisu与ThoughtSpot的对比,Sisu的竞争文档做了总结:


从这个对比来讲,由于两个都是BI产品,所以BI的基础功能都具备。但是在数据探索的能力上来讲,因为Sisu更新,因此更强大数据的探索的灵活性。在数据准备环节,Sisu也强调自己的SQL探索的时候的交互性。
在Sisu的文档中,可以注意到Sisu可以与dbt进行很好的集成。并且Sisu支持dbt刚刚推出的metircs store。因此虽然Sisu具备自己的数据准备,就如所有的BI产品一样,数据准备并不是Sisu的强项。与一个数据建模平台和工具的开放集成是必须的。


搜索式BI与数据建模平台的关系


因为我们自己在做一个希望能让业务运营人员、数据分析人员不依赖工程师就能使用的数据清洗、建模和转换的工具-快表格。有朋友会困惑快表格和搜索式BI的关系。
从前面的描述我们可以比较清晰地看到两类产品的定位的区别。快表格定位在是使用户更低成本的能探索、处理、使用原始数据,根据自己对业务的理解,完成业务的数据建模。而搜索式BI则定位在已经被整理、清洗和建模好的数据,如何更简单直接的让业务用户能够去使用。快表格更多的访问的数据是在数据湖中的数据,输出的数据可能会变为搜索式BI所需要的数据。搜索式BI一般的是访问数据仓库中被整理好的数据,输出的是know how和报表。
当然,在这个数据链条中,虽然每个产品都有自己的核心价值点,但是为了能够让自己能够闭环,都会在其他环节实现一定的能力。ThoughSpot有数据建模能力,Sisu有数据准备能力。但是显然他们的侧重点还是后边的BI能力。
同样,在快表格中支持一定的报表能力,但是报表和分析就不是快表格的重点。快表格的核心还是让用户能够更方便、简单地去访问原始数据。因为我们认为原始的数据是最事实的数据,而目前下沉到一线的数据驱动的运营。更需要能及时、快速、方便地访问原始的数据,结合当时的使用场景做判断,形成决策。当然,原始数据的脏乱差,决定了AI不仅仅能够去给后续BI进行提效,在原始数据处理阶段,同样是AI有巨大发挥价值的地方。




