暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据中台vs现代数据技术栈,中美数据技术对比

老阎杂货铺 2022-07-18
752

作为数据技术从业者,我大约从2013年开始关注海外的数据技术。主要原因是当时自己开始带一个小团队搞我们公司自己的数据,要面对不同的数据处理的问题。


当时获取海外数据技术进展的主要的途径就是O‘Reilly的Strata Summit。早期的时候,虽然不能亲身去现场听分享,但是每次Strata Summit结束后,大会都会把主要的会议视频以及相关的slides放出来供大家下载和听讲。正是因为对Strata的关注,让我能够及时了解海外的数据技术的进展和理念。同样因为对这些进展的了解,让我能选择合适的技术来解决我当时使用数据中面临的问题。比如,在Spark还在孵化器中的时候就采用Spark来解决当时用Hadoop面临的等待时间长以及容错不好的问题。后来又把我们的bitmap引擎作为扩展集成到Druid解决线上系统多维分析性能问题,引入Flink解决线上系统实时ETL问题等等。


时间到了今天,曾经我调研过、使用过的这些数据产品,有的已经长成了超级独角兽企业,比如Databricks。另外也有不少现在是独角兽企业,比如Druid开源商业化的Imply, 做数据安全的BigID, 做AI的Dataiku以及Datarobot。另外,就是有不少产品则被收购。比如Streamset被Software AG收购,CDAP被Google收购等等。粗略一看,曾经调研过的这些产品或者公司很少是彻底closed,最差也都是被收购掉了。由此可见,海外ToB的生态对于投资来讲的确比较友好。


在过去,由于自己主要是解决大规模数据的问题,因此更多地关注海外的大数据公司,当然也包括一些数据治理、数据安全相关的产品和公司。去年开始,我关注的重点开始向更偏数据普惠化的一些产品和公司。因此更多的去了解了以云上生态为核心的现代数据技术栈相关的公司。


在我翻译的现代数据技术栈:过去、现在和未来这篇文章当中,Dbt的CEO以他的视角进行了现代数据技术栈的总结和展望。从2012年aws推出Redshift开始,海外基于公有云开始重新构建新的数据技术生态。到了今天,我们从A16Z推出的Data50:2022 Data50-A16z关注的世界最好的2022年的50家数据创业公司可以看到。整个现代数据技术栈生态发展得非常的繁荣茂盛。这些现代数据技术栈公司无论是在资本角度,还是在获取客户角度,都取得了非常不错的发展。而正是因为有了这个生态为基础,新的创新还在持续的发生和发展,正如Tristan所说,现在处于寒武纪二期,也就是真正的生命大爆发的时期。


同样在2012年前后,中国移动互联网的爆发,也让中国的现代数据技术开始飞速发展。由于中国人口众多,移动互联网又是一个大量产生数据的行业。因此大量的创业公司都需要更好利用数据来让自己在竞争中取得优势。在这段时间中,海外的大数据技术基本上都是开源为主。而这些开源的海外大数据技术,在中国这片有着大量数据的土地上真正的找到了自己的发挥的土壤。Kafka, Storm, MongoDB, ElasticSearch, Spark, Flink, Druid, Clickhouse等一众大数据相关的产品都在中国生根发芽,进而促进了这些产品的提供商发展产品。虽然这些产品在中国很难取得商业化的成功,但是中国的极限场景还是给这些产品的发展起了很重要的作用。而随着源代码开源,但是云上收费的开源商业化模式的成熟,这些产品的商业化公司也都取得了非常大的商业成功。


差不多在2016年前后,美国基于云端数据仓库为核心的现代数据技术栈开始产生。这可以理解为数据技术开始以互联网为载体向传统行业进行迁移和辐射。也差不多在同一个时间,中国的数据技术也开始从互联网向传统行业去辐射,只不过结果是大家都耳熟能详的一个热门概念-数据中台。两个互联网经济最为发达,创业也最为活跃的地区,在数据技术从互联网向外溢出的路径选择上,选择了两条不同的道路。



数据中台-中国向左


大约在2015年开始,阿里提出了其中台战略,其核心是通过把公共能力放在中台,让前台可以具备更好的灵活性。通过中台能力的组装,前台可以快速地去响应变化。在其中台战略中,数据中台又是一个非常重要的组成部分。而有了阿里的示范效应,数据中台的概念在国内也迅速走红。虽然很多企业并不了解数据中台的实质,但是建中台逐渐成为了很多企业实现数据驱动和数字化升级的一个关键举措。


正是因为这个原因,国内也出现了多个在数据中台领域创业的公司。这其中比较成功的包括数梦工厂、袋鼠云、奇点云、云徙等等公司。几年发展下来,大家却发现数据中台虽然喊得热闹,但是基本上所有的数据中台公司都变成了项目公司。而每个客户虽然看起来购买数据中台产品,但是真正却是希望供应商按照自己的要求做项目。而一个个项目实施下来,供应商做的累还没赚到钱。由于都是定制化的项目,产品的积累也不足。而客户方则是花了很多钱,似乎买了一大堆高大上的技术组件,但是具体给自己能带来什么价值,又很难说个清楚。


于是乎到了2021年前后,突然间数据中台又变得不那么香了。首先是传言阿里要拆中台,然后一些又有一些不同类型的文章开始唱衰中台。真是以前是"小甜甜",突然今朝变成了牛夫人。


我在2020年的时候正好随着当时公司的销售去参与一些客户的投招标和交流的工作。当时主要面向一些消费行业的客户,这些客户由于处于一个高度竞争的环境中,因此都非常焦虑。对于这些客户来讲,经常被灌输的两个概念一个是数据中台,一个是CDP。在与这些客户沟通中,我经常先问客户自己有哪些数据?是否已经在用数据解决一些问题?结果通常情况下这些客户所采集的数据往往非常有限。一般会有来自于媒体的广告投放的点击数据,自己的一些核心系统的进销存数据,其他的跟自己最终用户相关的数据则少的可怜。在这种情况下,我经常跟客户讲,先能够保证采集到更多的跟用户进行交互的数据,并且低成本地保存下来。然后以具体到某个场景切入来构建一个数据应用似乎更合适。花大价钱购买一套数据中台解决方案,但是数据都还采集不好,就是有点儿高射炮打蚊子了。这种没有具体目标作为依托的项目建设,往往就会因为需求不清晰,项目边界很难控制。最终无论甲方还是乙方,都受到伤害。


实际上数据中台公司面临的痛苦,很多最近10年创立的服务企业的ToB服务公司都有所体会。其中的原因在不同的公众号文章都有过讨论,我个人认为有需求方不成熟的原因,供给方自己也存在有很多的问题。ToB企业服务是一个复杂的生态系统,中国ToB软件服务到现在应该有超过30年的时间了。在这超过30年的时间,实际上也成长起来了用友、金蝶、金山软件、深信服、广联达、帆软等做的非常不错的产品公司。


ToB软件企业服务是一个复杂生态,包括SaaS也一样,只是提供服务的方式和载体有了不同。在这个生态中,有产品厂商,也有专门的服务厂商。一个厂商很难自己即是出色的产品厂商,同时也是项目能力非常出色的服务实施厂商。如果想做一个出色的产品厂商,就要在前面几年耐得住成长速度慢,去做PMF。围绕几个核心的客户去打磨产品,让产品真正的实现PFM,然后靠产品力来获取更多的客户线索。同样的,通过产品力(能够方便实施和定制的能力),去让更多的服务实施厂商通过解决方案的形式触达更多的客户,解决更多客户的问题。现在很多情况是许多创业公司产品还没做到PMF,就一头扎到大客户的大项目中,然后开始基于开源凑解决方案。但是自己雇佣的人价格往往远远高于传统做项目实施的厂商,项目实施能力和效果,往往却还比不过人家。几年下来,虽然收入也在增长,但是产品没有积累,很快就发现进入了一个人越来越多,人效越来越差,然后进也不是,退也不是的困境。实际上,任何一个成熟的行业,分工才有效率,才真正能实现工业化。软件企业服务行业也一样。



现代数据技术栈-美国向右


数据中台在中国炒作的时候,在大洋的彼岸,美国的现代数据技术栈也开始进入蓬勃发展阶段。同样也是使用数据的场景从大型的互联网企业或者头部的大企业向更多的企业辐射,美国的数据创业公司走的是一条单点突破,联合做生态的路线。关于这些企业,有不少都在我的公众号中有过介绍。这里我不做过多赘述。但是为什么美国那边会是这样却值得我们思考。


首先,创业公司因为资源有限,只能是单点突破。因此在美国做创业,一定是在一个具体场景中找到一个问题的点去解决。在解决这个问题的时候,要通过创新来达到比所有的既有的产品都要好很多才行。


其次,周边的基础设施完备。做一个产品,就算是单点突破,很多公共需要的基础设施也是必不可少的。比如认证登录、计费、博客等等。你会发现在这些基础能力都有不少足够出色的厂商在提供服务,你需要做的仅仅是把相关能力集成到你的产品中。


再次,开放性。由于你做的是一个单点的产品,客户需要的往往是一个解决方案。一个单点产品虽然能满足客户一个具体的问题的解决,但是解决方案还是要组装。这个时候,你会发现你可以轻松地把你的产品与其他产品进行对接。对于客户来讲,只需要根据需求选择自己需要的不同的产品,通过对接就可以实现自己的诉求。


另外就是差异化。在调研海外的产品的时候,我发现虽然有不同的产品在解决相同的一个问题,但是这些不同的产品一定是有差异化的。这样对于不同的客户,就会根据自己的特点和需求做选择。没有差异化的产品,在海外的市场是很难生存的。


对于ToB企业服务的软件公司来讲,只要通过产品力实现了PMF,具体能发展多大,就看自己所解决的问题的市场规模大小以及延展性了。市场空间小,可以做一个小而美的公司,也可以被大公司收购。市场空间巨大,则可以以自己的市场为基础,继续培养生态。回到现代数据技术栈,我们可以看到Snowflake作为巨头,投资了自己周边的dbt, dataiku等等公司,这就是生态的力量。而SaaS的王者Salesforce,更是在自己的周边投资了大量的公司,也通过不同的并购来完善自己给客户所能offer的产品。


回到中国市场,过去30年中国因为改革开放大规模释放了生产力,经济一直在高速发展过程中。这些发展很多都是依靠要素扩张就能实现,包括互联网的发展都是通过要素扩张尽快占领市场而实现垄断地位。但是随着中国慢慢进入存量竞争阶段,要素扩张已经很难驱动中国经济的健康发展。国家出台的一系列措施也是希望经济能够更健康,向效率要发展。效率的前提就是专业化和分工。因此对于ToB的软件服务企业来讲,势必也要进入到拼产品力,拼开放对接和生态的发展轨道上来。最近接触的一些新的创业团队,大家都开始越来越倾向于做好自己的核心产品,其他的通过上下游对接来完成。这是一个非常好的信号,虽然这条路仍旧漫长,但是相信这是一条正确的路。



文章转载自老阎杂货铺,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论