暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

现代数据栈的演进:从规模到智能的范式转移

Andy730 2024-09-12
77

核心观点

1. 现代数据栈(MDS)的复杂性与实际需求之间的差距
现状分析:计算性能的提升和现代数据栈的复杂性已超出大多数传统分析工作负载的需求,绝大部分任务可以在单节点上完成,这削弱了分布式高扩展性平台的价值。

市场压力:当前MDS虽然粘性强,但市场力量正在推动其转型,特别是工具的商品化风险正在逼迫领导者做出改变。

2. 颠覆性创新的威胁与行业类比
克里斯滕森的颠覆性创新理论:通过对钢铁行业小型钢厂如何逐步侵蚀综合钢厂市场的例子,类比现代数据平台可能面临的商品化趋势。数据平台的导入、转换等环节被类比为钢铁行业的不同层次产品,这些基础功能可能会被更高效的专用工具取代。

应用于数据栈的类比:分布式扩展的管理能力在很多工作负载中不再是必需的,导致现代数据平台的复杂度超出实际需求。

3. 数据规模与实际工作负载
数据查询规模:实际数据查询负载较小,大多数查询仅在10GB以下,中位数查询甚至仅需处理64MB的数据。因此,许多任务并不需要多节点处理系统,单节点足以应对多数工作负载。

计算引擎的多样化趋势:未来可能会看到更多的专用计算引擎取代传统大规模并行处理(MPP)系统。

4. MDS未来的进化方向
智能应用平台的演进:未来MDS需要向更高层次的工作负载迁移,以协调复杂数据资产并支持多代理系统和协同层的构建。多代理系统能够为应用程序开发者提供更大的简便性,并推动集成效率。

RAG(检索增强生成)与多代理框架:未来数据平台可能会加入RAG等功能,并逐步向多代理系统方向发展,形成类似企业组织结构的多层协作框架。

5. 成本与执行效率的权衡
人力成本的考量:尽管自主搭建系统可能更高效,但在实际操作中,集成系统的简便性往往能够胜出,因为其能减少人力资源的消耗。

未来专用数据引擎的兴起:像DuckDB这样的单节点引擎的受欢迎程度正在快速上升,它们可能成为未来数据平台中的“小型钢厂”,削弱传统大平台的市场。

6. 市场竞争与演化
MDS参与者的扩展潜力:现有MDS厂商如Snowflake、Databricks等仍有机会通过增加新功能(如RAG、协同层等)扩展其市场空间,从而避免被商品化。

自动化与代理技术的未来:代理技术的兴起将为未来自动化和智能应用提供广阔的市场空间,MDS的未来发展可能围绕这一新领域展开。

-----

计算性能的快速提升和现代数据栈(MDS)的日益复杂已超出大多数传统分析工作负载的需求。目前,绝大部分分析任务仅涉及小规模数据集,通常可在单节点上执行,这削弱了分布式、高度可扩展数据平台的价值主张。因此,我们认为,最初为仪表盘服务的MDS必须演进为智能应用平台,以协调复杂的数据资产并支持多代理应用系统。尽管数据平台具有粘性,但我们观察到市场力量正在联手对现有商业模式施加压力。

我们邀请了Fivetran首席执行官George Fraser参与讨论。作为一家基础设施软件公司,Fivetran对数据流、数据规模、数据来源及其使用方式的演变有着独特的洞察。在本期节目中,我们探讨了一个假设:许多在数据平台上进行的分析工作可能面临被"足够好"且具成本效益的工具商品化的风险,这迫使当前MDS领导者不得不考虑转型。

克莱顿·克里斯滕森(Clay Christensen)的理论在关键时刻再次显现其重要性

我们的许多听众可能熟悉克里斯滕森在牛津大学的系列经典讲座,他以极其简洁的方式阐述了颠覆性创新理论。主要内容概括如下:

https://www.youtube.com/watch?v=rpkoCZ4vBSI

克里斯滕森以钢铁行业为例解释他的模型。历史上,大部分钢铁由综合钢厂生产,建造这样一个钢厂需投资100亿美元。随后出现了"小型钢厂",它们使用电弧炉熔化废金属,能以比综合钢厂低20%的成本生产钢材。

小型钢厂在1960年代末变得可行。由于其产品质量普遍较差,小型钢厂最初瞄准了钢筋市场。综合钢厂认为"让小型钢厂接手这7%低利润率的业务"。如上图所示,随着综合钢厂逐步退出钢筋市场,它们的利润率有所改善,这让它们感到安然无忧。然而,当最后一家综合钢厂在70年代末退出钢筋市场时,价格骤降,该市场变成了商品化市场。随后,小型钢厂逐步向上渗透到利润较高的角钢和型钢市场,最终导致综合钢厂模式崩溃,除一家外全部破产。

克里斯滕森指出,类似情况在汽车行业(以丰田为例)和其他多个行业都曾发生。我们在计算机系统领域也观察到这一现象。我们认为,尽管存在一些显著差异,但类似的动态可能也会在软件行业发生,尤其是在数据平台栈领域。

将钢铁行业案例应用于现代数据栈生态系统

下图展示了克里斯滕森案例中钢铁行业与数据领域的类比。

数据导入、转换和商业智能分别对应钢筋、角钢和型钢。需要强调的是,我们在此类比中讨论的是对数据平台的需求。尽管用于从应用程序中提取数据的连接器较为复杂,但相比于当今数据平台日益增长的规模和复杂性,将数据加载到系统中的需求相对较小。换言之,对于大多数工作负载而言,分布式扩展管理能力的复杂度已超出实际需求。现代数据平台为了证明其复杂度的合理性,必须向更高层次的工作负载迁移。

值得注意的是,这一类比与钢铁行业存在差异。综合钢厂在"层级"上达到了极限,没有进一步的扩展空间,最终走向失败。而像Snowflake和Databricks这样的公司仍有可拓展的总潜在市场(TAM)机会。

Fivetran对数据行业的独特洞察

在此背景下,我们邀请了Fivetran首席执行官George Fraser参与讨论。Fivetran是定义现代数据栈(MDS)的标志性公司之一。Snowflake、Fivetran、dbt和Looker被视为最初MDS中的"四骑士"。

以下ETR幻灯片展示了Fivetran在市场中的显著地位。

该数据源自2024年8月对1349名IT决策者的调查,呈现了ETR数据集中数据/分析/集成领域的新兴公司(即私有公司)。纵轴表示净情绪指数,即对产品使用意图的衡量,横轴代表市场认知度。蓝色曲线显示了自2020年以来Fivetran的显著增长趋势。

问题1:George Fraser,当前的现代数据栈在复杂性与规模上的发展,是否已超越了大多数工作负载的实际需求?

我们正处在一个数据平台能力空前强大的时代,但有趣的是,我们或许正站在一个“解绑”的转折点,此前十年间,数据领域经历了显著的“捆绑”趋势。
一个关键洞察影响了整个数据平台领域:多数数据集的规模远未达到普遍预期的庞大程度。在Fivetran的实践中,我们发现许多被贴上“庞大”标签的数据集,实则源自低效的数据管道操作,如每晚重复存储相同记录的副本。
若数据管道设计得当,实现高效运作,则数据集的规模并不构成显著挑战。此外,我们观察到,数据平台上承载的工作负载多以处理大量小型查询为主,而非单一的大型查询任务。值得注意的是,数据湖的兴起,特别是Iceberg和Delta等新型数据湖技术,已成为Fivetran业务增长的重要驱动力。
另一值得探讨的现象是,数据湖虽常被视作存储海量数据的场所,但其价值远不止于此。它们还赋能多个计算实体共享访问同一数据源,从而能够根据实际数据规模选用更为优化的计算引擎,更好地服务于日常工作中常见的数据集处理需求。
综上所述,这是一个既令人兴奋又充满挑战的时期,数据栈的复杂性与规模讨论与实际应用之间,存在着显著的认知与实践差距。

大数据的实际规模

让我们深入探讨数据规模问题。下方数据显示,仅10%的查询超过100MB,另9%达到10GB。因此,99%的查询都在10GB以下。这主要是因为大多数查询针对的是新鲜数据,而价值也正体现在这些数据上。这些数据来自Mother Duck,具体来自Jordan Tigani的博客《大数据已死……》。Tigani曾任Google BigQuery产品负责人,现为Mother Duck的CEO。尽管这些数据已有几年历史,我们认为它仍反映当前市场情况。

问题2:George Fraser,Jordan的数据是否反映了当今的现实?

Jordan确实对此谈论了很多,我也与他讨论过这个问题。我最近还在研究Snowflake的数据。
几年前,Redshift发布了一组代表性的实际查询样本,展示了真实世界中的查询工作负载情况。这些数据虽然较早,但Snowflake的数据可追溯到2017年,而Redshift的数据稍新一些。虽然我们无法看到具体查询内容,但可以查看一些汇总统计数据,包括查询扫描的数据量等。
查看这些数据时,我发现了一个令人惊讶的事实:Snowflake和Redshift的中位数查询仅扫描64MB数据。这非常令人震惊!理论上,iPhone都可以处理这样的查询。
当然,你无法在iPhone上运行完整的工作负载,但关键在于,挑战并非数据规模,而是查询数量。这与我们在Fivetran客户中观察到的情况一致,也为未来不同的架构模式提供了可能性。
设想一个拥有数据湖和多种计算引擎的系统。其中许多计算引擎可能是单节点的,因为大多数工作负载并不需要大规模并行处理(MPP)系统。数据湖的一个优势在于,多个系统可以协同处理同一个数据集。对于那些极少数需要大规模资源的复杂工作负载,你仍可在同一数据库中使用MPP系统,而其他更优化的查询引擎——甚至是DataFrame库——则可以处理小型查询,而这恰恰构成了人们大部分工作负载。

标准EC2实例内存容量超过大多数查询数据集规模

让我们继续通过MotherDuck的数据来探讨当前市场动态。

上图显示标准AWS EC2实例配备256GB内存,意味着可将整个数据集加载至内存,因此绝大多数查询和工作负载只需一个节点即可处理。需要明确的是,并非所有查询都在内存中完成,但关键在于,当今大多数情况下,无需分布式多节点集群即可完成查询。

问题3:George Fraser,你分析了Snowflake和Redshift关于工作负载规模的最新数据。结合你的经验,客户在选择计算/执行引擎时,成本如何分布,特别是在当前环境下?

我开始研究这些数据是为了更好地了解数据导入成本占总体成本的比例。
我们观察到一些客户案例中,数据导入(即数据摄入)占整体工作负载约20%。在更广泛的客户群体中,这一比例保持一致,这令我感到惊讶。我原本认为这一比例会更小,但实际上数据导入占了平台上工作内容的相当大一部分。
这意味着什么?
虽然未来发展难以预测,但这些观察中蕴含着一些有趣的矛盾。我相信未来我们会看到计算引擎的多样性增加。我们当前使用的主要平台不会消失,但随着开放格式的普及,部分工作负载将逐渐分离,采用更专业化的计算引擎来处理特定任务。
例如,如果你今天注册Fivetran的数据湖服务,我们使用自建的DuckDB驱动服务将数据导入数据湖。这是一个为特定任务设计的高效引擎的绝佳例子。它参与数据湖的管理,与Databricks、Snowflake等平台共享,满足用户的不同需求。

专用数据引擎会成为未来的"小型钢厂"吗?

回到"够用"的工具可能使数据栈像钢铁行业一样商品化的观点。

以下是来自DB-Engines的最新数据,该网站是衡量数据库引擎流行度的权威来源。图表显示了DuckDB相较于其他数据平台流行度的上升趋势。自2020年以来,DuckDB的受欢迎程度提高了近两个数量级。DuckDB是开源且单节点的,如果我们用钢铁行业类比,它是"小型钢厂",而Snowflake、Databricks和BigQuery则是"综合钢厂"。

问题4:George Fraser,你观察到的情况如何?开源分析型数据库的采用是否在增长?你认为它会侵蚀集成数据平台的市场份额吗?

关于数据工作负载,需求是无限的。我们行业的动态总是比人们想象的竞争性要低。如果你找到更高效的方法,客户就会对数据提出更多问题。
例如,Snowflake几乎是上一代数据仓库的直接替代品。它在各方面都更优,尤其是在企业已有的某些类别应用中表现出色。运行工作负载的成本效率也提高了十倍。我们看到,人们用Snowflake替换了传统数据仓库,但预算并未减少——他们只是做了更多的数据处理。
简而言之:也许会。但请记住,在数据管理领域,当我们找到更高效的方式,人们只会做得更多。
此外,这不仅仅是数据库引擎的问题。还涉及数据框架执行引擎,如PolarDB,这是一款非常快的单节点数据框架执行引擎。随着数据格式变得更加开放,这一生态系统中有许多参与者,客户也有更多机会找到最合适的解决方案。

问题5:George Fraser,你深入了解了当今集成供应商在速度和简便性上的改进,如Snowflake的声明式数据管道、增量更新、低延迟的数据导入和处理,并能直接为仪表板提供数据。这种端到端的简化提升了独立组件或单节点系统无法实现的效果。换言之,今天的MDS(现代数据平台)厂商能否像综合钢厂无法做到的那样,重新定义行业标准?

我认为,对许多客户而言,集成系统的简便性最终会占上风。要记住,世界上最昂贵的成本是人力成本。你可能会说,我可以将DuckDB和其他系统组合起来,构建一个在数学上更高效的系统。你可能是对的。但对任何公司来说,工程团队只需做少量工作,可能就会抵消所有这些效率收益。因此,许多客户只会选择开箱即用的解决方案,因为它在人力资源方面更高效,即便价格上可能存在更优的配置。

MDS参与者如何扩大其可服务市场?

为证明当今集成数据平台的复杂性合理性,我们认为它们需要增加新功能。以下列出MDS参与者可追求的三种新元素:1) 添加RAG(检索增强生成);2) 协同层;3) 多代理系统。这些都是Snowflake和Databricks等公司正在研究或有机会通过合作关系实现的功能,以吸收集成简便性,超越传统底层工作负载的需求。

值得注意的是,与钢铁行业的类比不同,综合钢厂无法向更高层次迁移。然而,在数据平台领域,如果期望所有数据都"说同一种语言"(例如在BI世界中通常是度量和维度),当尝试在整个应用程序生态系统中实现这一点时,会变得非常复杂。目标是确保无论何种分析或应用程序与数据交互,数据的含义始终保持一致。这是一个复杂的挑战,也为提供新价值创造了机会。

我们在与Snowflake的Benoit Dageville的节目中讨论了这一点,也与Relational AI的Molham Aref和Enterprise Web的Dave Duggal进行过对话。这几乎是在向一种新型数据库发展,它作为抽象层存在。当数据平台逐步向这一层次迈进时,它为应用程序开发者提供了集成的简便性,使他们工作更为高效。

这也与RAG(检索增强生成)相关。

目前,RAG利用LLM(大语言模型)来解析不同的数据块,但为了真正有效,它还需要一个语义层。这就是所谓的GraphRAG。图表中的下一层是当LLM能够采取行动并调用工具时,而无需为每个步骤进行预编程。这就是代理(agents)的作用,你需要一个多代理框架来组织这些代理,形成一个类似于企业组织结构的体系。

这些都是当今应用平台可以演进的层次,不同于钢铁行业类比中无法升级的情况。这是我们将在未来几个月乃至几年内持续探索的领域,跟踪应用平台的演变。

未来智能应用程序栈的潜在形态

现在让我们回顾一下我们对现代数据和应用程序栈演进的设想,以支持智能数据应用。

我们曾提出过智能数据应用程序栈演进的愿景。一个关键点是缺少协同层,有时也称为语义层。图表右上角展示了一个尚未开发的新领域,代表多代理平台。我们报道过Salesforce、Microsoft和Palantir等公司正在研究或发展这些新功能。但它们局限于各自的应用领域。而UiPath、Celonis等新兴参与者则有机会跨越单一应用领域,构建横向的多代理平台,打破应用组合中的价值壁垒。

因此,这不仅是Snowflake和Databricks之间的竞争,还有其他公司加入竞争,因为这些公司都有志成为构建智能数据应用的平台。

自动化领域参与者将争夺代理价值

下图是Insight Capital的图表,展示了代理领域的一些新兴参与者。我们不期望你能读懂这张图的细节,但要点是,这里有众多潜在参与者可以作为合作伙伴、并购目标或竞争对手。现有和新成立的公司正迅速涌现,争夺这一关键层次的市场。

几十年来,应用程序的定义由数据库和数据模型构成。流程和工作流是应用程序逻辑,最后是呈现逻辑。这形成了各个自动化孤岛。重新定义这一复杂领域的设想是通过协同层抽象所有这些孤岛,然后在其上构建代理框架。这个代理框架将允许所有这些角色或功能性、专业化的代理在企业级的更大范围内协同工作,映射顶层目标并自下而上执行。

我们认为这是未来五到十年内,AI实现投资回报的最大挑战和机遇。

问题6:George Fraser,你能否评论一下今天的讨论如何与这样一个观点相契合:虽然现代数据平台具有高粘性,但我们强调的某些紧张关系表明,数据湖可能会以许多人未曾预料的方式发生转变?

我认为数据湖出现的一个不太明显的影响是执行引擎的多样化。我们可能会看到一些工作负载从集成数据平台中分离出来,但同时,也会出现许多新的需求,比如你刚刚提到的诸多内容。
-----

Source:Is the Modern Data Stack Out Over Its Skis? David Vellante, George Gilbert; September 07, 2024

参考资料

公司概述

Fivetran是一家领先的数据集成公司,提供自动化的数据迁移平台。成立于2012年,总部位于加利福尼亚州奥克兰,Fivetran已经发展到超过1176名员工,拥有10个国际办事处。到2022年,该公司已筹集到7.28亿美元的资金,估值达到56亿美元。

产品

Fivetran的核心产品是一个完全托管的数据管道,能够自动从各种来源(如SaaS应用程序、数据库和云服务)提取数据,并将其复制到数据仓库中。它提供了超过200个预构建的连接器,可以在几分钟内设置,无需任何编码。该平台监控连接器的变化、停机和架构更新,确保可靠且零维护的数据管道。

商业模式

Fivetran采用混合定价模型,结合了基于SaaS的订阅层和基于消费的计费。客户根据每月复制的数据行数进行付款,更高的层级提供更多用户、功能和更快的同步。这种模式使Fivetran的收入增长与客户的数据增长保持一致。

优势

  • 自动化数据管道:Fivetran的预构建连接器和监控功能消除了手动构建和维护管道的需要。
  • 快速获取洞察:通过自动化数据迁移,Fivetran使客户能够快速访问集成数据,以进行分析和AI/ML应用。
  • 可扩展和可靠:该平台随着客户数据量的增长而扩展,并通过其监控和维护确保可靠的数据交付。
  • 广泛的连接性:Fivetran支持多种数据源,从流行的SaaS应用到小众数据库,满足多样化的数据集成需求。

增长与荣誉

Fivetran经历了快速增长,2022年预计收入达到1.9亿美元,同比增长141%。该公司拥有超过5000名客户,包括财富500强公司和行业领导者。Fivetran被评为优秀工作场所,2022年在《财富》杂志和Great Place to Work的“湾区最佳工作场所”榜单中排名第二。它还获得了来自Google Cloud、Snowflake和Databricks等云数据平台的多个合作伙伴奖项。


---【本文完】---

近期受欢迎的文章:

  1. 2024年数据平台的十大关注热点

  2. 数据平台的崛起与彻底重塑

  3. 数据平台竞争加剧:Snowflake与Databricks的新竞争态势

  4. 数据平台的崛起:AI全面重构企业数据框架

  5. VAST Data深度访谈:超越计算与存储边界,迈向第六数据平台



更多交流,可加本人微信

(请附中文姓名/公司/关注领域)

文章转载自Andy730,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论