近 40 家创业公司!带你了解实时数据系统领域创业新动向!奥斯汀,世界现场音乐之都(Live Music Capital of the World)。这座位于美国得克萨斯州的城市,因为近年来科技巨头的涌入,正在成为新兴的科技之城。由于其便利的交通与地理位置(位于美国中部),奥斯汀也吸引了越来越多的科技大会选择在此举行。这几天我也有幸在一年内第二次来到奥斯汀,参加数据系统领域的顶级科技大会 - Current 2022。说到 Current 这个名字,大家也许感到陌生。但其另一个名字应该对各位工程师来说并不陌生:Kafka Summit。由于品牌等各方面的原因,活动的主办方,数据系统领域的巨头Confluent,决定将 2022 年的 Kafka Summit 更名为 Current。
德克萨斯州州议会大厦Current 大会宣传的重点就是实时数据系统。不同于被广泛采用的大数据处理平台(例如 Apache Hadoop、Apache Spark、Apache Hive 等)或是数据仓库(例如 Snowflake、Redshift、BigQuery 等),实时数据系统强调的是对实时产生的数据进行实时的计算与存储。在近年,由于实时报表、实时监控、实时追踪等应用的兴起,实时数据系统领域正在市场上逐步得到认可。该领域的翘楚 Confluent 公司也于 2021 年中成功 IPO,带动了新的一波实时数据系统研发与应用的浪潮。想要了解一个领域的未来发展方向,一个很好的方法便是去了解该领域的初创公司们都在做些什么。在 Current 大会的两天中,我聊遍了所有 Current 大会的赞助商们。除了个别行业巨头之外,多数的大会赞助商为该领域的初创公司。在本文,我就结合自己的理解,带着大家认识一下这些初创公司们,以此了解实时数据系统领域的未来。本文安排如下:首先我会对这些公司进行分类整理,分享一下自己的观察,提出我认为的潜在风险,之后我再逐一介绍各个创业公司的核心业务。声明:本文只去介绍参与赞助 Current 大会的初创公司们,且本文将尽可能保证评论的客观公正,但并不对公司的具体业务发展情况负责。本文并不构成任何对特定公司的投资建议,不过本人的确推荐各位对该领域进行长期投资 :-)
创业方向分类
通过对参展的各个创业公司的分析,我们可以将创业方向划分成以下几个大类:- 该类别包含了Databricks,Aiven,Conduktor,Imply,StreamNative,StarTree,Immerok,Factorhouse等。这类公司基本可以划分成三种发展模式:1)项目主创团队出来创业。这类公司包括了Databricks,Imply,StreamNative,StarTree,Immerok等。他们的核心卖点之一就是“正统性”,通过对开源项目强有力的把控来引导项目发展方向,并通过社区尝试将开源用户转向付费用户。2)非主创团队创业。这类公司包括了Conduktor,Factorhouse等。他们通常会选择强调云平台的多方向开发,从独特角度如安全、可视化、系统集成等方面来寻找差异化。3)直接商业化多个开源项目。Aiven就是其中的典型。通过在云上提供不同开源项目的托管服务,这类公司可以很好的削弱不同项目之间的割裂感,为用户提供整套解决方案。
- 该类别包含了Decodable,Striim,Airbyte等。Airbyte专注于 ELT,而Decodable与 Striim 更多的是在做 ETL。很显著的一个特点就在于这类公司都在以易用性核心卖点,例如 Decodable 就强调用户只需要在平台上点几个按钮然后写 SQL 就能实现从一个数据库到另一个数据库的实时数据变换和导入。
- 该类别包含了 StreamNative,Redpanda 等。消息队列是大家都十分熟悉的基础软件了。Kafka 相信没有人没用过,它背后的公司也是本次大会的主办方 Confluent。消息队列在过去十年已经充分证明了它的价值。但这并不代表消息队列的发展迎来了尽头。在云原生的新时代这个方向又出现了新的挑战者们,基于存算分离等新技术推出新的产品,实现降本增效。
- 该类别包含了 Aklivity,Macrometa 等。这类公司填补了从数据源到数据访问中间的空缺,让用户很容易的访问到实时接入的数据。
- 该类别包含了 Ably 等。这一类公司主打部署在近数据源的边缘设备上的实时数据处理。实时数据的一个很重要的来源就是终端产生的数据,比如传感器手机等等。为了降低延时,实时计算的组建需要部署到设备端以便更贴近数据源,而不是一味的集中到云上的数据中心里。这也给基础软件提出了新的需求和挑战。
- 该类别包含了 Clear Street,Bicycle 等。这类公司主打实时数据分析在垂直行业里的应用。这类公司的发展,将证明实时计算在一些特定行业已经能够被大规模落地。
- 该类别包含了 Quix,Meroxa 等。这类公司面向的对象是会使用特定编程语言(如 Python 等)的群体。
- 该类别包含了 Imply,StarTree,InfluxData,Rockset,FeatureBase 等等。这一类产品主打的是提升传统分析型数据库在接入实时数据上的能力,降低传统分析型数据库在入库时的高延迟。他们都提供 SQL 接口,允许用户像使用传统数据库一样对数据进行分析查询。
创业时间
| | |
| | |
| | |
| | |
| | |
| Aiven, Ably, Rockset, Memgraph, Nussknacker | |
| | |
| Acceldata, Clear Street, StarTree | |
| Conduktor, Materialize, StreamNative, Cube, Redpanda, Tinybird, Meroxa | |
| Bicycle, Airbyte, CelerData, DeltaStream, Factorhouse, LakeFS | |
| RisingWave, Decodable, Aklivity, Timeplus | |
| | |
很显然,2019,2020 和 2021 年这三年是实时数据创业的黄金年份。在2019年之前,实时计算领域还远不如如今这么火热。但近年来随着传统的批数据处理进入瓶颈期,实时数据处理开始引起人们的注意。2021 年 Confluent 上市的标志性事件又为实时数据处理这个赛道注入了新的信心。现在毫不夸张的说,实时计算是当下最火爆的赛道之一。
创业趋势
很显然,实时数据系统这一领域已经逐步从小规模被科技巨头应用走向了批量被普罗大众所使用的阶段。如果说 Confluent 的 IPO 证明了广大企业都有存储实时数据的需求的话,那么现在这波实时数据系统领域的创业公司很多都在想去证明用户同样有在实时数据上做计算的需求。这波实时数据系统领域的创业公司切入点各有不同。从实时API到实时分析型数据库到流数据库,尽管从宏观角度看似乎类似,但大家实际上都在找细分领域做差异化。例如实时API领域面向的用户更多的是应用开发者,而事实高级语言框架面向的更多的是数据分析师与数据科学家。无论是哪个细分领域,我们都能够看到,实时计算已经迎来了下一波浪潮。
创业挑战
坦白说,我觉得实时数据系统领域,或者说整个数据系统领域,从技术层面来讲并没有什么真正的不可逾越的挑战。毕竟无非大家都是在玩性能与资源平衡的游戏。我是非常看好实时数据系统领域的。当然了,如果我不看好这个领域,也不会在这个领域创业。那么到底存不存在挑战呢?我觉得还是存在的。最大的挑战来自于市场尚未成熟。一个技术是否能够迎来爆发式发展,并不是在于技术有多么先进,而是在于技术是否与市场需求所匹配。流处理概念最早在 20 年前就在学术界提出,并在工业界落地,但是过去二十年一直出于不温不火的状态。尽管有些科技巨头已经采用了这样的技术,但是这并不意味着这样的技术能够被广泛的应用到各个公司中去。这就是典型的技术与市场不匹配导致的问题。而如今,在实时数据系统这个领域,我们的确很明显的感受到市场的升温,但离被像 Oracle 或是云计算领域新贵 Snowflake 一样被广泛接受与认可尚需时日。我预测这个时间大概是 2-5 年。在这段时间内,在这个行业的创业公司不得不需要去花大量时间与精力于教育市场。这一投入是巨大的,也是充满未知的。当然了,正如我们都知道的,挑战与机遇并存,谁能够在挑战中把握到机遇,谁就将最终成为市场的主宰者。
创业公司详解
接下来我们罗列一下 Current 大会赞助商中的那些创业公司。在这里,我们列举的标准是近十年成立的非上市公司(即 2012 年之后成立的公司)。至于那些巨头、被收购公司或是老牌公司们(例如 AWS,Google,Microsoft等),我就不在此一一介绍了。
RisingWave
官网:https://www.risingwave-labs.com/
创立年份:2021 年
关键词:流处理,数据库
融资轮次:A 轮
最近一轮融资年份:2022 年在此先介绍一下我司 RisingWave Labs。我们于2021年年初成立,在过去的两年里,我们已经成长为横跨7个时区的完全分布式团队。RisingWave一直专注于开发云原生流式数据库。其核心思想就是让流处理变得像操作普通SQL数据库一样简单。为了做流处理,用户唯一需要做的就是创建物化视图。整个数据库是从头用Rust写的,主要也是看中了Rust语言高效安全的特点。与如今流行的一些系统类似,RisingWave完全不依赖于JVM生态,部署运维都非常简单。作为使用Apache协议开源的项目,RisingWave商业化模式还是提供云服务。目前private preview版本已经发布,预计明年会发布GA版本。作为流式数据库,用户可以处理流数据,同时也可以存储数据。这也就意味着用户可以直接在数据库上进行查询。很多人都会想到流批一体这个很火的概念。RisingWave目前还是更加侧重在流处理上,具体批处理的能力如何,还是得看具体工程实现优先级了。Databricks
官网:https://www.databricks.com/
创立年份:2013 年
关键词:湖仓,数据平台
融资轮次:Pre-IPO
最近一轮融资年份:2021 年其实不用我介绍,大家应该都已经对 Databricks 这家公司不感到陌生了。这家一级市场估值高达 380 亿美金的公司,以Apache Spark 起家,正朝着大一统的lakehouse方向(即湖仓一体)迈进。在今年,Databricks 的营收也超过了 10 亿美金。如果没有意外的话,想必这家公司会在未来两年内成功 IPO。Databricks正稳步朝实时计算方向发展。他家的 Spark Streaming 也是其核心发展方向之一,今年也宣布即将推出下一代 Spark Streaming 引擎Lightspeed。但由于 Lightspeed 还没有正式开源,我就不多展开了。Slower
官网:http://slower.ai/
创立年份:2014 年
关键词:-
融资轮次:-
最近一轮融资年份:-slower 是一家神秘的公司。作为一家号称 2014 年就成立的公司,我们并没法在网上找到任何有效的信息,而其官网也只是简简单单一个公司 logo 罢了。经过跟他们员工的交流,我了解到他家主要是在为各种企业提供各种云上以及私有化部署软件解决方案,业务涵盖了数据库、数据平台、数据管理工具、机器学习平台、安全等等。总的来说,是个全能型解决方案团队。由于其团队过于神秘,在这里我还是点到为止,不扩展下去。Aiven
官网:https://aiven.io/
创立年份:2016 年
关键词:开源,云服务
融资轮次:D 轮
最近一轮融资年份:2022 年Aiven是一家总部位于赫尔辛基的云服务提供商。与很多其他创业不同的是,他们说的故事并不是某开源项目核心成员出来开公司商业化开源项目,而是说自己能够提供各种各样开源服务的云托管服务!从 Kafka 到 Flink,从ClickHouse 到 InfluxDB,从 MySQL 到 PostgreSQL,只要是主流的开源项目,他们都能够提供托管服务。粗看来感觉这么做并没有什么特别的竞争力,但实际他们应该是解决了用户很大的一个痛点,即软件选择的问题。当今的数据软件实在太多太复杂。为了构建复杂应用,企业往往得使用多种软件。通过提供全套云服务,相信会很大程度上解决用户选择软件的难题。不仅如此,统一的管理界面会使得软件之间的连接更加流畅,没有很强的割裂感,相信这也是个不错的优势。Conduktor
官网:https://www.conduktor.io/
创立年份:2019 年
关键词:Apache Kafka,云服务
融资轮次:A 轮
最近一轮融资年份:2021 年Apache Kafka 是一个分布式的时间消息存储系统。只要有数据流,就可以用Apache Kafka来进行存储。然而有这个存储系统是不够的,我们还要去部署、运维、操作这个系统,对这个系统进行监控,对这个系统上的数据进行分析与管理。Conduktor 这家公司就是做了这一系列事情。他们的标语是 “Streamline Apache Kafka”。本以为是跟 Confluent 做的事情高度相似,跟他们的 CTO 聊了一下之后才知道他们不仅仅只做 Kafka 的托管服务,更重要的是对数据的分析与管理。比如,你可以通过他们的平台去了解你存在 Kafka 中的数据质量是否可控,或者希望对数据进行查询或者监控。这本质上是把Kafka 当作了数据平台,用户不再需要把数据导入到下游的数据仓库或者数据湖中,而是在 Kafka 内部便可以对数据进行处理。相信这是一个不错的角度。Decodable
官网:https://www.decodable.co/
创立年份:2021 年
关键词:数据管道,数据工程,云服务
融资轮次:A 轮
最近一轮融资年份:2022 年Decodable 是 2021 年诞生的数据工程领域的新秀。他家专注的点是个大家非常熟悉的问题:数据的 ETL。提供ETL能力的平台数不胜数,那么 Decodable的切入点是什么呢?其实也很简单,就是为工程师提供了一个非常简洁易用的平台:通过简单的点击以及编写 SQL 代码,就能够将数据从一个平台(例如Apache Kafka,Apache Pulsar)导入到另一个平台(例如 Snowflake,Redshift)。而且他们提供的是云服务,用户无需在本地完成任何软件便可连接云上的数据库。相信这也是非常不错的产品。Imply
官网:https://imply.io/
创立年份:2015 年
关键词:Apache Druid,实时分析,数据库
融资轮次:D 轮
最近一轮融资年份:2022 年相信做数据库的工程师们应该对 Imply 不会感到过于陌生。他家所商业化的产品 Apache Druid 是一款业界知名的实时分析引擎。其核心解决的问题就是对大规模数据上的随机复杂查询做出低延迟响应。尽管近年来在实时分析领域诞生了诸多新的创业公司,但凭借着自己稳定的性能,Imply 从客户量上还是保持着相对领先的地位。Materialize
官网:https://materialize.com/
创立年份:2019 年
关键词:流处理,数据库
融资轮次:C 轮
最近一轮融资年份:2021 年Materialize算是我司最直接的友商了,与我司做的东西一样,Materialize 的核心产品是流数据库。在 Current 大会上,他们终于发布了期待已久的产品:云上的流数据库。尽管 Materialize 从 2019 年开始就基于 Timely Dataflow 开源项目来构建流数据库,但长期以来,Materialize 都是一个单机版的纯内存数据库,可用性在真实生产环境中可能会遇到不小的挑战。不过,这次的新版本相信会让大家眼前一亮,值得期待。StreamNative
官网:https://streamnative.io/
创立年份:2019 年
关键词:Apache Pulsar,消息队列,pub/sub
融资轮次:A 轮
最近一轮融资年份:2021 年StreamNative 成立于 2019 年。虽然成立时间不长,但在开源社区和基础架构的圈子里 StreamNative 具有不错的知名度。他们的核心产品是商业化版本的 Apache Pulsar。从 2016 年开源以来,Apache Pulsar 已经在全球范围内被诸多公司所采用。同样作为一款消息队列系统,Apache Pulsar 与 Apache Kafka 有两大区别:一方面,相比于 Kafka 专注于事件数据的存储,Pulsar 同时也关注应用内部所产生的消息数据;另一方面,Pulsar 的架构更加云原生,其存算分离的架构能让整个系统变得更加可扩展。至于商业化层面,StreamNative 目前也专注在云上为用户提供服务。Ably
官网:https://ably.com/
创立年份:2016 年
关键词:消息队列,pub/sub,边缘计算
融资轮次:B 轮
最近一轮融资年份:2021 年Ably是一家总部位于英国伦敦的提供云上的消息队列服务的公司。听到消息队列服务,大家肯定觉得他家的产品跟 Kafka 或是 Pulsar 类似。没错,Ably 的产品从类别上的确跟Kafka有些类似,但是,他家最大的不同点是在做边缘计算(edge computing)。Kafka 通常被部署在一家公司的数据中心,通过Kafka,我们可以用一种中心化的方式来去获得消息数据。而 Ably 的侧重点则是边缘,他家的产品可以部署在边缘云上,直接在设备端,例如手机、传感器、平板电脑等,进行处理,以此达到毫秒级的延迟。Ably 已经成立了 6 个年头,累计融资也超过了 8000 万美元。Acceldata
官网:https://www.acceldata.io/
创立年份:2018 年
关键词:可观测性,云服务
融资轮次:B 轮
最近一轮融资年份:2021 年Acceldata 是个云上的全面的数据可观测平台。可观测平台这个赛道近年来是卷的火热。除了市场的领导者 Splunk 以及 Datadog 外,还有各种各样的创业公司都在做这个赛道。根据与 Acceldata 员工的交流,我会认为他们是一个什么都做的可观测性平台,但这并不能让我很好的理解他们与 Datadog 等的区别。而如果深入的去了解他们的产品,我会发现他们更关注的是所谓“现代数据栈”上的各种系统的可观测性,而非机器本身或是 CI/CD 这些传统的应用的可观测性。也就是说,他们观测的对象是与其他公司所关注的略有差别。Aklivity
官网:https://www.aklivity.io/
创立年份:2021 年
关键词:实时 API
融资轮次:种子轮
最近一轮融资年份:2022 年Aklivity 是一家目前仅有三个员工(含老板自己)的创业公司!我在一个酒会上与他们的三位员工都聊了一下,他们在做的是一个名字叫Zilla的开源 API 工具。目前已经获得了四百万美金的种子轮融资。他们在做的是一个实时API网关。简单来说,当用户使用 Kafka 的时候,根据设备或者应用的不同,可能会选用不同的接口对接 Kafka,相对比较麻烦。Aklivity 开发的 Zilla 相当于是在 Kafka 上做了一层统一的封装,这样不同的应用就可以以同样的方式来去接入 Kafka 了。Bicycle
官网:https://bicycle.io/
创立年份:2020 年
关键词:收入运营,SaaS
融资轮次:未知
最近一轮融资年份:未知在 2022 年的 Current 大会中,我们惊喜的发现了一些提供实时分析能力的SaaS 产品。Bicycle 就是其中之一。他家并不是在卖一个实时分析引擎,或者是实时分析存储,而是为电商平台等客户提供实时的数据监控、报警、分析功能。打个比方,对于一个电商平台的公司,Bicycle 能够通过过去的销售数据来去分析以及预测未来的可能销售情况,并通过这样的销售数据来去进行收入管理。他家的员工透露,他们的引擎是自己开发的,并使用了一些机器学习的方法来去对销售数据进行分析。随着实时分析的底层系统逐步完善,我感觉像这样的 SaaS 创业公司会越来越多。Clear Street
官网:https://clearstreet.io/
创立年份:2018 年
关键词:FinTech,SaaS,证券交易
融资轮次:B 轮
最近一轮融资年份:2022 年Clear Street 是一家总部位于纽约的金融科技平台服务商,提供了一个云上的证券交易服务。传统的证券经纪商如银行等基础设施落后,信息不透明,效率低。Clear Street 看到这一机会,想依靠云计算来去颠覆这一领域。如果说Robinhood 是给散户打造的交易平台,那么在我看来 Clear Street 就是给专业机构打造的 Robinhood。通过 Clear Street,用户不仅可以进行证券交易,还能够通过简单的接口来对数据进行实时分析。在 2021 年,其云平台上单交易日平均处理交易数额就已达到 30 亿美元。Cube
官网:https://cube.dev/
创立年份:2019 年
关键词:Headless BI,云平台
融资轮次:B 轮
最近一轮融资年份:2022 年初看到 Cube 的展台,我以为他们是一家做 BI 可视化的公司,而实际并不是。他家做的东西是介于数据存储系统(如数据库、数据仓库等)与可视化 BI工具中间的一层。它解决了几个问题:1)统一口径。用户从不同的数据源查询数据时数据的类型、单位、表示等可能都不统一,而 Cube 可以提供数据模型来解决这一问题;2)访问权限。管理员可以通过 Cube 给不同用户设定不同权限从而为不同用户展示不同报表;3)缓存。每次从 BI 工具到底层数据存储系统拿数据总是会带来不小的访问开销。Cube 提供了一层缓存来解决该问题。4)不同的 API。总体来讲,我觉得 Cube 是个十分薄十分好用的工具,不少公司应该都会喜欢。Immerok
官网:https://www.immerok.io/
创立年份:2022 年
关键词:Apache Flink,云服务
融资轮次:种子轮
最近一轮融资年份:2022 年Immerok 可能是 Current 大会赞助商中最年轻的一家公司了。不过他们做的事情可能并不会让做实时分析的同学陌生:在云端商业化 Flink 系统。说到Flink 相关的公司,大家可能会想到在 2019 年被阿里巴巴全资收购的Ververica。Immerok 与 Ververica 的关系非同一般:Immerok 的几乎整个创始团队成员均来自于 Ververica。Immerok从今年上半年成立以来,已经完成了一轮 1700 万欧元的种子轮融资。与提供私有化部署的 Ververica 不同,Immerok 将整个重心都投入在了云服务上。相信这也是大势所趋了。InfluxData
官网:https://www.influxdata.com/
创立年份:2012 年
关键词:时序数据库
融资轮次:D 轮
最近一轮融资年份:2019 年InfluxData 已经名声很大了,其实不用过多的介绍。他家的主要产品 InfluxDB是一款业界主流的时序数据库。作为一家商业化开源软件公司,InfluxData 把自己最核心的代码使用最宽松的 MIT license 进行开源。不过有意思的是,他家开源的仅仅是单机版本,而分布式版本还是完全闭源收费的。InfluxData 最近也在用 Rust 语言重写自己的系统内核。看来 Rust 重写系统在业界还是挺普遍的。Macrometa
官网:https://www.macrometa.com/
创立年份:2017 年
关键词:实时 API
融资轮次:A 轮
最近一轮融资年份:2021 年Macrometa 提供实时数据 API 的服务。什么叫实时数据服务呢,Macrometa本质上可以理解为一个全球化的实时多模数据库。用户通过 API 或接入实时的event source 写入数据库,并通过 CRDT 实现全球化的实时同步。用户就像使用一个跨机房的分布式数据库一样实现数据读写和 cache 服务,可以直接查询实时写入的数据。相比于其他实时数据服务,Macrometa 有两个不一样的侧重点。一是他家把底层技术做成了服务封装起来,上层提供了十分丰富的数据模型和 API,例如 key-value store,文档数据库,图数据库,pub/sub等 ;二是他家很侧重于边缘计算。这样,对于 IoT 等对边缘计算有大量需求的用户,就只需要通过访问他们的 API 就能够很简单的获取实时的数据了。Oxylabs
官网:https://oxylabs.io/
创立年份:2015 年
关键词:网关,SERP scraper,SEO
融资轮次:未知
最近一轮融资年份:未知打开 Oxylabs 的官网,你会发现他们的核心业务是网络代理,比如 IP 地址代理和数据中心的网关建设。这看起来和实时系统没啥关系,但仔细看就会发现,oxylabs 另一个大支柱业务是实时的 SERP scraping。我此前对这个词比较陌生,并且调研了一下发现国内也没有比较正式的翻译,因此保留这个词并简单介绍一下。SERP 是指 Search Engine Result Page,而 SERP scraper 是指通过爬虫对一些关键词在搜索引擎中的查询结果,包括广告,相关查询,网页排序等相关,进行自动化的跟踪,并以格式化的形式返回给用户。SERP scraping 主要用在市场部门对自己产品和竞对的 SEO 进行分析,这里面的核心的市场价值在于提供降低技术门槛的SaaS服务。Oxylab 则是进一步提供了自动化的实时 SERP Scraping 的业务。这背后需要一套成熟的实时数据技术栈,从数据的爬取到实时分析再到发送给用户。Oxylabs 已经成立 7 年,没有公开的融资纪录,公司却从立陶宛一路开到了全球。这也说明实时数据的应用是真的具有优秀造血能力的市场。
Quix
官网:https://quix.io/
创立年份:2020 年
关键词:Python,数据科学,数据工程
融资轮次:种子轮
最近一轮融资年份:2021 年之前的流处理平台面向底层程序员设计,只提供 Java 等语言接口。但是,对于数据科学家来说,主流的编程语言其实是 Python。这里就产生了一个机会:如何让数据科学家等更加熟悉 Python 语言的用户享受到流处理的便利。Quix 就是一个主打面向 Python 等其他高层语言的流处理平台。Quix 由来自于英国迈凯轮(你没看错,卖豪车那个)的几位数据科学家创立,从创始之初就是主打面向数据科学家和数据工程师的流处理平台。它依赖 kafka 等消息队列完成数据输入和输出,但提供了云上托管的流数据处理服务。除了Python,我也从其官网上看到他们已经加上了对 C# 的支持。Redpanda
官网:https://redpanda.com/
创立年份:2019 年
关键词:消息队列,Apache Kafka 兼容
融资轮次:B 轮
最近一轮融资年份:2022 年Redpanda 直接与 Apache Kafka 竞争。如果说 Red Hat 是 Linux 的商业发行版的话,那么 Redpanda 就是 Kafka 的商业发行版。Redpanda的接口与 Kafka 完全兼容,相比于 Kafka,Redpanda 主打性价比:它号称性能是 Kafka 的十倍以上,而硬件效率提高 6 倍以上。作为一个 C++ 项目,Redpanda 还有一大卖点,就是彻底抛弃 JVM 的依赖。当安装 Redpanda 的时候,用户不再需要安装如 Zookeeper 等 JVM 生态的组件。这个理念我是高度认同的。大数据时代以 Hadoop 为首的平台安装维护的复杂度实在太高,会劝退一批工程师。如今,很显然极简的部署与运维环境将是相比于现有大数据时代技术的一个很强竞争点。Rockset
官网:https://rockset.com/
创立年份:2016 年
关键词:实时分析,数据库
融资轮次:B 轮
最近一轮融资年份:2020 年Rockset 是一个实时分析数据库。在这个领域中,已经有不少开源产品,不过Rockset 是为数不多的闭源产品。在早期,其实 Rockset 并不是做实时分析(OLAP)数据库的。Rockset 初创团队就是在 Facebook 里面做 RocksDB 与HDFS 的那波人。而他们的产品也的确是基于 RocksDB 开发的。我从他们只有 10 人左右的时候便关注着他们的产品。我还记得他们最最早期的时候做的其实是 SQL on raw data,也就是能够在原始数据上(比如 Json 等半结构化数据)做查询。之后逐步变成了所谓 indexing database(索引数据库),直到近两年才全面将产品定位成实时分析数据库。他们最吸引我的点还是从2016 年那个时候就能预测到未来的数据将放在云上,越来越多的原始数据将会被保存下来。从现在这个时间点回头再看他们做的产品,可以说是时代的领跑者了。StarTree
官网:https://www.startree.ai/
创立年份:2018 年
关键词:Apache Pinot,实时分析,数据库
融资轮次:B 轮
最近一轮融资年份:2022 年StarTree 是实时分析数据库领域的新秀。尽管成立时间不长,但是已经在硅谷获得了不错的关注度。除了产品以外,相信他们的 VP of DevRel Tim Berglund 也吸引了不少目光。StarTree 的核心业务是商业化 Apache Pinot,一个开源实时分析数据库。相比于其他实时分析数据库,StarTree 更加侧重于高并发查询,这也是在很多用户交互场景(如 LinkedIn上“Who's viewed your profile” 应用)所需要的。除了在云上卖实时分析数据库外,StarTree 有一个 SaaS 服务,叫 ThirdEye,专门使用 Pinot 做数据的异常检测。这也其实反应出了一个趋势,即现在的 infra 企业正在逐步往 SaaS 层发展。Striim
官网:https://www.striim.com/
创立年份:2012 年
关键词:数据集成,流处理
融资轮次:C 轮
最近一轮融资年份:2021 年Striim 是一家专注于做数据集成的公司。他家是由 Oracle GoldenGate 原始团队创立的。GoldenGate 于 2009 年被 Oracle 收购,其团队专注于面向 Oracle 数据库的数据导入导出业务。而 Striim 现在的核心业务与 GoldenGate所做的属于同类:数据库到数据库的数据集成方案。由于成立时间比较早,早期 Striim 还是做私有化部署,不过最近几年随着云的兴起,他们也将业务扩展到云服务。公司给人印象深刻的地方在于产品对于数据生态的友好程度,Striim Cloud 支持基本上所有的主流的数据库、数据服务以及云平台。公司甚至开发了数十种接插件并发布在云厂商的应用市场里,极大降低了用户接入的复杂度。Swim
官网:https://www.swim.inc/
创立年份:2015 年
关键词:实时数据分析, 实时应用
融资轮次:B 轮
最近一轮融资年份:2019 年Swim 这家公司的产品主要是帮助开发者构建和管理基于流数据的实时应用。他们的开源产品 Swim OS 提供了一个构建实时应用的框架,而商业产品 Swim Continuum 则可以实现流数据源管理,基于流数据的实时分析和展示,以及对于应用运行状态的监控。看起来像是将应用监控和业务分析结合到一个平台上了。这家公司提供的并非单项服务(中间件),而是面向商业用户的一套实时数据处理与分析方案。Tinybird
官网:https://www.tinybird.co/
创立年份:2019 年
关键词:实时数据分析,实时 API
融资轮次:A 轮
最近一轮融资年份:2022 年Tinybird 是一家实时数据分析公司。数据源有各种各样,但为了构建应用,应用端使用数据还是需要通过 API 来访问。Tinybird 构建的就是从数据源到 API中间的桥梁。他们的产品支持多种类型的数据源,开发者可以用 SQL 对这些数据进行转化和处理,然后通过 API 接口将用到的查询暴露出去。下游的应用只需要调用这些 API 接口就可以即时访问最新数据,不必再搭建复杂的数据管道。从技术角度来讲,Tinybird 使用的是目前流行的 Clickhouse 做数据处理。Airbyte
官网:https://airbyte.com/
创立年份:2020 年
关键词:数据集成, ELT/ETL
融资轮次:B 轮
最近一轮融资年份:2021 年Airbyte 是一家总部位于硅谷、发展势头十分迅猛的数据集成公司。他们的产品可以看作是开源版 FiveTran 的替代品。具体来说,Airbyte 是一个万用的数据连接器,支持多种数据源(应用、API、消息流及数据库等)与目标数据系统(数据库、数仓及数据湖等)的连接。不同于许多底层流计算系统,需要接入清洗过的结构化的数据,或者由工程师在计算引擎里编写复杂的数据清洗逻辑,Airbyte 是直接应用到应用,端到端的数据集成。通过 SaaS 式的简单配置,就可以实现一百多个不同系统之间的数据交换。得益于开源社区的积极贡献,Airbyte的数据连接器数量目前已超过 150,官方还提供了开发包,开发者无需花费太多时间(官方宣称 30 分钟内)即可完成定制连接器的开发。这家公司产品的易用性得到很多好评,文档和支持资源也比较丰富。CelerData
官网:https://celerdata.com/index
创立年份:2020 年
关键词:实时数据分析,数据库
融资轮次:未知
最近一轮融资年份:未知CelerData 是国内实时分析数据库领域创业公司 StarRocks 在美国成立的新公司。StarRocks 是从开源项目 Apache Doris 迭代出来的一个商业化产品。与Rockset、StarTree、Imply 等类似,StarRocks 可以高效的处理用户的高并发分析请求。其接口兼容 MySQL,从性能角度来讲也声称能够远超同类别产品。DeltaStream
官网:https://www.deltastream.io/
创立年份:2020 年
关键词:流处理,数据库
融资轮次:种子轮
最近一轮融资年份:2022 年DeltaStream 是 2020 年年底成立的做流数据库的公司,其创始人 Hojjat Jafarpour 也是 Confluent 公司 KSQL 项目的创始人。DeltaStream 提供了一个无服务的流式数据库来实时的管理和处理数据流。DeltaStream 自身不包含存储模块,而是将流存储平台如 Kafka 和 AWS Kinesis 或静态数据源如 AWS S3 视为存储层,允许用户从一个或多个数据源读取数据、执行计算并同时跨不同存储源写入结果。DeltaStream 内部使用 Apache Flink SQL 作为引擎。Factorhouse
官网:https://factorhouse.io
创立年份:2020 年
关键词:Apache Kafka, 云服务
融资轮次:无
最近一轮融资年份:无Factor House(2022 年 9 月更名之前叫做 http://Operatr.IO)是一支位于澳大利亚的三人(!)创业团队。其 CEO 和 COO 分别是 Derek Troy-West 和Kylie Troy-West 夫妻俩。其主打产品 Kpow 是一个专为 Apache Kafka 设计的web 端可视化工具,能帮助企业用户更好地管理和监控 Kafka 资源。Kpow 让用户能够可视化、检索、导出实时数据,从而大大提高了 Kafka 的可观察性和易维护性,无需使用复杂的命令行就可轻松管理所有 Kafka cluster和 topic。跟其团队攀谈一番后得知他们是从疫情期间开始居家开发该平台,至今没有拿过任何融资,不过已经是有客户的状态。LakeFS
官网:https://lakefs.io
创立年份:2020 年
关键词:类 git, 多版本,数据湖
融资轮次:A 轮
最近一轮融资年份:2021 年lakeFS 由 Treeverse 公司开发。它能够让用户像管理代码一样管理 data lake中的数据 — branch, commit, merge, revert 样样不在话下。数据湖,尤其是超大型数据湖管理起来非常棘手,它所依赖的对象存储系统缺乏原子性、回滚、复现等特性,导致数据的质量和可恢复性降低。以往我们使用data lake时经常给生产环境创建一个副本,这样就能先在副本中测试数据改动,没问题了再对生产环境作改动。但问题是这个方法非常耗时耗财,也很难多人协同工作。lakeFS 把对象存储转变成类 Git 式的 repo,无需复制任何数据、支持多人协同,仅注入安全的数据,减少错误的产生,即便产生了错误也可直接在生产环境中对 bad data 进行原子回滚。Memgraph
官网:https://memgraph.com
创立年份:2016 年
关键词:图数据库,实时分析
融资轮次:种子轮
最近一轮融资年份:2021 年Memgraph 是一个低延迟、高性能的 in-memory 图数据库,能够很好地处理事务型和分析型图任务。Memgraph 能够分析来自多个数据源的数据,发掘这些数据之间的潜在联系,让用户能够基于此应用图算法和分析,进而构建自己的实时应用。CEO Dominik Tomicevic 提到 Memgraph 最典型的用户来自化工业、制造业、金融业,他们都有个共同点:需要从分散的数据中获取实时分析。Meroxa
官网:https://meroxa.com
创立年份:2019 年
关键词:代码优先,实时分析
融资轮次:A 轮
最近一轮融资年份:2021 年有了 Meroxa,用户可以在几天内搭建、测试和部署实时数据应用。Meroxa 是个以开发者为中心、代码优先的工具,能让软件工程师节省更多时间来构建数据产品,而不是把时间浪费在维护脆弱的数据系统上,这些数据系统通常不是为开发人员设计的。Meroxa 的目标是帮助开发人员专注于用实时数据构建应用,而不是将重复的运维功能自动化。他们的愿景是将其打造成行业领先的“数据应用平台即服务(DAPaaS)”提供商。值得一提的是,Meroxa 是个非常多元化、有爱、开放的团队,正如他们官网所写道“我们能帮助每个人成为数据工程师,并成长为一个‘数据驱动’的人——因为有了好的数据,我们都可以成为变革的力量。”FeatureBase
官网:https://www.featurebase.com/
创立年份:2017 年
关键词:实时分析,bitmap
融资轮次:未知
最近一轮融资年份:未知FeatureBase 是总部位于得州奥斯汀,由 Molecula 公司和 Pilosa 项目近期合并改名而来。其产品是一个使用bitmap进行数据索引的 OLAP 数据库。具体来说,FeatureBase 会将传统 OLAP 中列存的数据转化为基于 bitmap 的Feature,从而实现更好的读写性能和资源效率。同时 FeatureBase 将流数据作为重要关注点,强调bitmap带来的流数据更新的实时性提升。FeatureBase能比较好地为结构化数据建立索引,但是对非结构化数据无能为力。其产品具有开源和云服务两种服务模式,支持 SQL 和其自定义的 PQL 两种数据访问接口。Nussknacker
官网:https://nussknacker.io/
创立年份:2016 年
关键词:实时分析、可视化
融资轮次:未知
最近一轮融资年份:未知Nussknacker 是一个可视化实时分析工具。它的面向用户是管理者、分析师等之前习惯使用类似于 Excel 等交互工具的人。通过 web 端的可视化操作而不需要写代码,用户就可以构建进行数据流上的分析处理逻辑。对于简单的分析查询,Nussknacker 用 kafka 作为主要的输入流和输出流接口,开发了自己的轻量引擎来进行简单的流处理操作,而高级复杂聚合操作会在 Flink 上进行处理。Nussknacker 降低了构建实时数据处理分析的门槛,不需要写代码或专业开发人员的帮助,业务团队就可以部署和测试业务处理逻辑。
Timeplus
官网:https://www.timeplus.com/
创立年份:2021 年
关键词:流处理、数据库
融资轮次:种子轮
最近一轮融资年份:2022 年Timeplus 是由一群原 Splunk 工程团队资深专家创建的公司。其核心产品为云上流式数据库。目前用户已经可以在其官网上注册申请 beta 版本的访问。我看过他们的云产品,其交互式界面给人体验很不错。目前为止其团队所开发的产品仍完全闭源。使用这种方法可以让团队更加专注在商业化上面。
总结
感谢各位看到这里。本文已经全面介绍了实时数据系统领域的创业发展方向。相信这也是数据基础设施领域近些年来最激动人心的方向了。如果你对这个方向感兴趣,或是对 RisingWave 开源、云产品感兴趣,都可以与我们联系。相信实时数据系统领域在不远的将来便会迎来跳跃式发展。
彩(广)蛋(告)
其实我这次去 Current 大会,除了与各位同行聊天、宣传 RisingWave 之外,还有一个活就是给了一个技术演讲。演讲的题目是 “Rethinking State Management in Cloud-Native Streaming Systems”。这一演讲属于纯技术干货分享,介绍了 RisingWave 系统内部的一些实现。如果有兴趣的朋友可以看我的演讲 PPT:https://www.slideshare.net/WuYingjun/rethinkingstatemanagementincloudnativestreamingsystemscurrent22pdf同时,在 Current 大会网站上也可以看到完整的视频:https://2022.currentevent.io/website/39543/welcomehttps://github.com/risingwavelabs/risingwave