暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Data50中的BI公司

老阎杂货铺 2022-04-05
1554

我在2022 Data50-A16z关注的世界最好的2022年的50家数据创业公司这篇文章中罗列了A16z评选的2022年的最好的50家数据创业公司,我们今天详细的来分析一下这其中的5家BI公司,分别是Sigma Computing, Sisu, Hex, Preset和Metabase。



01

我们说的BI指的是什么?



从定义来讲,BI是Business Intelligence的缩写,是个非常广泛的概念。从这个角度看,Data50中所有公司做的事情都是BI中的一个部分。不过在工业界由于各种商业的需要,目前我们通常理解的BI已经被定义为基于已经被整理好的数据,进行数据可视化、报表分析等功能的产品的这一大分类。关于BI的历史和定义,可以参照BI、数据仓库、数据湖、湖仓一体都是什么? 而在Data50中,BI&Notebooks被当做一个分类,定位于消费整理好的数据,为企业提供决策支持的这些产品。




02

相关BI&Notebook公司简介






01

Sigma Computing


  • 公司名:Sigma Computing

  • 公司官网:https://www.sigmacomputing.com/

  • 成立时间:2014年

  • 地点:旧金山

  • 创始人:Rob Woollen, Jason Frantz

  • 融资历史

    • 2014年4月   A轮800万美金   Sutter Hill风险投资

    • 2018年1月   B轮2000万美金   Altimeter资本

    • 2019年11月   B+轮3000万美金  Altimeter, Sutter Hill

    • 2021年12月   C轮3亿美金融资  D1资本以及XC联合领投


Sigma Computing最早成立于2014年,但是在2018年之前,一直处于探索和摸索阶段。到了2018年底,Sigma推出了利用Spreadsheet作为交互式UI,可以在云上进行Snowflake, Redshift, BigQuery等等云端数仓进行集成的分析产品,使得公司发展进入了快车道。简单的类似于Excel表格的操作方式以及云端更易于访问的数据仓库,正好与云端数仓时代发展到趋势一致。


到2019年的年中,Sigma又推出了面向数据建模的可视化建模平台:Visual Modeling,从而可以让用户可视化的进行数据建模工作,而不用编写代码。


由于投资商关系,Sigma Computing与Snowflake关系比较密切,很早就与Snowflake结成了战略合作。在最新的一轮融资中,Snowflake也是Sigma的投资商。从技术上来讲,Sigma也是与Snowflake做了非常深入的集成。在Sigma的合作伙伴列表中,Snowflake是排在最前面的合作伙伴。


笔者亲身体验了一下Sigma Computing,这里来说说我自己的一些感受。首先Sigma Computing进入之后是一个非常类似于Google Sheet的表格形式。支持上传csv文件和连接到数据仓库,其中csv文件大小不能超过100M,我尝试上传60M大小,大约50万行的文件失败,遇到如下错误:


缩小到大约5万行的文件,上传成功。打开数据集后首先能做的就是Explorer,也就是打开数据探索窗口,而不是在原来的表格继续操作。在数据探索窗口,支持比较丰富的分析类型的公式,相对现在的敏捷BI,应该更直观和易用。但是探索窗口不支持数据建模,如果想要进行数据整理和建模,需要进入Table视图,但是在Table视图中,可以进行数据清洗和转换的操作不多,对于相对干净的数据,应该问题不大,但是对于数据比较脏,能力则欠缺不少。由于Sigma把自己定位为新一代云上BI,因此具备比较不错的数据可视化能力。不过也是需要在探索窗口打开一个新的数据可视化视图才能完成。


Sigma目前的计算能力是依赖于底层的云端数仓或者数据库来支持的,目前已经支持的数据仓库和数据库如下:

可以看到Sigma Computing在对接上支持的并不多,甚至说深度绑定了Snowflake。从最新的计划看,对于Databricks的对接正在开发中,估计在2022年会支持。从Sigma Computing的官网,也能对它目前的定位有一个简单的了解:

Sigma基本上是一个非常友好的基于表格的操作界面并且支持协同,加上对Snowflake的SQL都翻译,加上一些可视化能力,实现了云上的BI。


在Data50的排名中,Sigma排名第19,是排名最高的BI&Notebook初创公司,相信前面介绍的这些关键特点,是它赢得这个排名的核心的产品能力。当然,与Snowflake的关系,也让它在资本和客户市场都更容易获得认可。


商业化上,Sigma有在线的免费试用版本,开通有14天免费期。但是在官网并没有报价,在首页能够看到solution菜单,针对不同行业有对应的solution介绍。客户则包括Cowen, Scripps, Agero, US Foods等等,甚至还包括了Snowflake。从这个可以推测Sigma应该是采用传统的面向大客户的销售驱动的模式,与现在主流的云上产品采用按量收费有挺大的不同。






02

Hex


  • 公司名:Hex

  • 公司官网:https://hex.tech

  • 成立时间:2019年

  • 地点:旧金山

  • 创始人:Barry McCardel, Caitlin Colgrove, Glen Takahashi

  • 融资历史

    • 2021年3月  种子轮  550万美金  Amplify领投

    • 2021年10月 A轮 1600万美金  Redpoint领投

    • 2022年3月   B轮 5200万美金 A16z领投


Hex是一家比较年轻的公司,成立于2019年。不同于Sigma Computing致力于让非技术人员不用写代码进行数据分析工作。Hex致力于解决写代码的数据工程师和数据科学家的基础设施问题,包括提供了一套云端可以进行Python+SQL或者R+SQL进行编程的环境,支持数据可视化,并且支持数据间的血缘关系的查看。同时,因为是在线的平台,Hex支持非常好的协同能力,支持分享。生成的可视化的报表,则可以以app的形式分享出去,并且可以嵌入到notion等在线文档工具中。


在Hex的官方网站,它把自己定位为从数据到知识的平台,如下图:


在现代数据技术栈中,类似于现代的办公SaaS一样,分享和协同已经成为了一个必不可少的特性,甚至是相对于软件时代最为显著的特性之一。Hex也正是主打这一个特点。


注册登录到Hex的界面后,一股浓浓的notebook风格。Hex支持上传csv文件,我同样尝试50万行大约60多M的文件,上传成功,并可以开始操作。


在这个界面,用户就可以写SQL或者Python来进行数据处理的操作了,对于数据工程师和数据科学家来讲,这应该是一个比较熟悉和友好的界面,但是显然这个不是面向数据分析或者业务人员的。


在开放性上,Hex对接能力比Sigma要强很多,它支持的数据源包括如下的类型:


从这个列表看,基本上主流的数据仓库和数据库Hex都已经进行了支持,甚至支持了Dremio和Trino。


在今年的3月份,Hex完成了自己的B轮融资,投资商包括Databricks和Snowflake,看来作为一个面向数据工程师和数据科学家的协同式数据开发平台,Hex得到了这两个云上的数据仓库/数据湖仓地大鳄的认可。在Data50中,Hex排名第23,在BI&Notebook中排名第二。


在商业化上,Hex则是比较典型的云上数据工具产品的商业化的方式,有Free的社区版本,有团队版,也有企业版。具体的收费定价如下:


不同的版本,在协同、安全等等特性方面也有不同,这样通过规格、功能特性等等的区别就可以实现Free版本引流,然后通过团队版本以及企业版本进行商业化的变现。




03

Sisu


  • 公司名:Sisu

  • 公司官网:https://sisudata.com

  • 成立时间:2018年

  • 地点:旧金山

  • 创始人:Peter Bailis

  • 融资历史

    • 2018年7月  A轮融资 1420万美金   A16z领投

    • 2019年10月 B轮融资 5250万美金  NEA领投

    • 2021年9月  C轮融资 6200万美金   Green Bay领投


Sisu不同于前面两家公司最大的区别是Sisu不是一个人用来进行数据处理分析的工具,而是一个机器自动分析的工具。可以理解为Sisu是利用机器学习和AI,自动地在海量的数据中发现问题,从而降低对人的依赖,显著提高效率。在Sisu的官方文档中,列出来了自己跟主流的BI工具(Tableau, ThoughtSpot, PowerBI)的区别,基本上Sisu强调的几个点是:

  • 云原生

  • 自动的异常发现

  • 自动的模式发现

  • 自动文本的特征提取

  • 大数据支持


在AI的场景大部分都应用在视频、音频等等领域时,Sisu把AI应用到了数据分析中,实际上是AI增强的数据分析平台。我非常赞同这个思路,在2016年我自己带数据团队的时候,就发现数据相关的工作是非常耗费人的劳力的工作,而且很多情况下都是繁琐的重复性劳动。通过AI增强,显然是可以显著地降低人的投入的,当时调研过利用AI进行数据关联的Tamr。现在我自己创业在做的产品,也在致力于把AI的能力应用到数据准备中,从而能让机器给人赋能,降低人的重复性劳动。


从商业模式上,Sisu目前采用的是面向大客户的方式,官网没有报价页面,需要联系销售才能进行产品开通试用。由于AI增强分析具有行业属性,因此Sisu的官网上有很多不同行业的解决方案。Sisu在Data50的排名为34名,是BI&Notebook的第三名。





04

Preset


  • 公司名:Preset

  • 公司官网:https://preset.io

  • 成立时间:2018年

  • 地点:旧金山

  • 创始人:Maxime Beauchemin

  • 融资历史

    • 2019年10月  A轮融资 1250万美金   A16z领投

    • 2021年8月  B轮融资 3590万美金   Redpoint领投


Preset实际上是开源的数据可视化项目Superset的商业化公司。由于open core作为Infra在过去商业上取得了很大的成功,出现了Confluent(kafka),Elastic, Mongo,Hashicorp等非常成功的公司,因此先开源获取用户,然后用云来进行商业化就成了一个已经被验证了的商业模式。Superset这个开源项目最早来自于Airbnb的一个Hackathon项目,让用户可以在Druid这个OLAP引擎上非常方便的实现切片,多维钻取以及报表可视化。在2016年,Superset进入Apache孵化器,到现在已经是开源社区一个非常知名的数据可视化项目。从github上,我们可以看到这个项目的活跃程度非常的高:

虽然一般情况下前端相关的项目都会github的star数偏高,不过高达45.4K的star数可见这个项目的热度。要知道,Data50中排名第一的spark现在的github的star的数据是32.5K,还是落后于superset。当然Spark属于大数据平台项目,star的数量一般会相对前端少很多。另外,superset有757个贡献者,也算是贡献者很多的项目了。


Preset作为一个云上的BI平台,支持免费开通账户进行测试,可以对接数据库和数据仓库。基本上主流的数据库和数据仓库Superset都有了支持,相信这是因为有开源社区的力量。


登录到Preset上后,首先用户需要创建工作区,类似于项目的概念。创建工作区后,可以进入工作区去创建数据库和数据集,然后就可以进行SQL操作去进行分析型计算,并且生成各种图表和dashboard。

整个界面风格比较传统,属于典型的面向工程师的工具,比较适合数据工程团队使用。另外由于是云上的产品,Preset支持协同。


商业化上,Preset包含Starter,Professional和Enterprise三个版本,基本上属于云上数据工具产品的典型的报价方式,具体报价列表如下:


可以看到Preset入门免费,但是通过增强功能来实现专业版付费。专业版按照每个席位每月22美金进行收费,但是年付则优惠到20美金。当然,专业版还是会有量的限制,这样能让用户在使用的多的时候增购来付更多的费用。


总的来讲,Preset作为一个开源商业化的产品,总体比较平衡,相对前面几个产品对接数据库的能力更强,这主要得力于开源。在Data50中,Preset排名46名,属于BI&Notebook中的第四名。





05

Metabase


  • 公司名:Metabase

  • 公司官网:https://metabase.com

  • 成立时间:2014年

  • 地点:旧金山

  • 创始人:Sameer Al-Sakran

  • 融资历史

    • 2019年2月  1300万美金  NEA

    • 2019年4月  A轮 800万美金 NEA领投

    • 2021年5月  B轮 3000万美金  Insight Partners领投


Metabase跟Preset是非常类似的公司,也是开源的数据可视化平台,然后进行商业化。相对于Superset,Metabase的开源社区活跃度要稍微差一些,具体的数据如下:


可以看到metabase的github的星的数量为28K,另外贡献者数量为304,总的来讲都不如Superset。


Metabase也是走地开源构建社区,云端收费的商业化路线。但是Metabase在云端的收费策略与preset有比较大的区别。虽然Metabase也是分为Starter, Pro和Enterprise三档,但是Metabase没有免费版本。其定价策略如下:

可以看到Starter版本就是收费,而且是85美金一个月,包含了5个用户,然后每新增一个用户额外收5美金。而Pro版本则到了500美金一个月,包含10个用户。两个公司的差异化定价也代表了两个公司商业化的选择有不同。Preset应该更希望通过免费版做大用户基数,然后再有漏斗到付费版本,但是付费版本的费用单用户比Metabase要高。而metabase则最多支持试用,但是不支持免费版本用户。具体哪种策略更好,则见仁见智了。




03

总结



在整个数据领域,BI一直是一个确切存在的需求。从传统软件时代cognos, BO, 海波龙那个时代,到后来以Tableau为代表的敏捷BI,再到今天的这些在云上的不同类型的BI。企业希望用数据帮助自己做决策的需求一直存在。只是云时代把这个需求的满足能够覆盖到更多的中小型企业,以及企业的执行层面,甚至个体。在新的这个全球都开始数字化驱动的大背景下,简单、易用、成本低、支持协同、速度快、智能无疑是新的数据工具应该具备的特点,Data50中的这些产品或多或少都是在这方面去改进和提高的。对于我们这些在这方面进行创业的创业者来讲,也是大家在努力追求的目标。

文章转载自老阎杂货铺,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论