暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

智能数据平台:2023年回顾和2024年预测

Andy730 2024-01-09
135

析师:David Vellante、Sanjeev Mohan、Tony Baer、Carl Olofson、Dave Menninger和Doug Henschen。

正如诺贝尔奖得主尼尔斯·玻尔(Neils Bohr)和棒球传奇约吉·贝拉(Yogi Berra)所言,预测未来是一项相当困难的任务。


对头部“分析、BI、数据和ML平台”的全面梳理

在我们深入探讨之前,让我们分享一些来自ETR十月调查的数据,该调查涉及超过1700名IT决策者。

在我们深入探讨之前,让我们分享一些来自ETR十月调查的数据,该调查涉及超过1700名IT决策者。这张图表展示了净分数,即在纵轴上的支出势头,以及这些平台在这1700个帐户中的重叠,代表它们在数据集中的普及程度。此数据专注于分析、BI、数据库/数据仓库以及ML/AI领域。我们挑选了这一组行业中具有代表性的公司,其中许多公司在今天的讨论中将被提及。在这张图表的红线位置,40%表示对平台的支出速度非常高。

主要观察如下:
  • 在这些领域,微软和AWS的市场地位非常显著,远超过谷歌云;
  • OpenAI的发展势头令人印象深刻,其净分数接近80%。在X轴上,Anthropic的账户渗透约为7倍,你可以在图表左侧看到Anthropic,它位于Dataiku的上方;
  • Snowflake和Databricks的市场份额仍然保持在40%以上,显示出强劲的增长趋势;
  • 在图表的各个领域中,我们将直接或间接讨论许多公司,包括MongoDB、SAP、IBM Watson等。这些公司涉及治理、元数据、管道和ETL工具,如Informatica、Collibra、Alation、Alteryx等。此外,还有BI平台,如Thoughtspot、Qlik、Tableau和Looker。当然,也有一些数据库和数据分析平台,如Couchbase、Cloudera、SAS,以及Oracle和SAP。


这提供了一个大致的定量概念,了解这些平台在总市场规模(TAM)中相对位置,而这个市场规模高达数百亿美元。


数据分析师2023年预测回顾

让我们开始回顾一下2023年的预测,以了解分析师们的预测准确性。

下面的图表展示了每位分析师对2023年的预测,并附有关于预测准确性的评论。这些评论根据预测是否准确直接命中(绿色)、接近但未完全命中(黄色)或完全未命中(红色)进行分类。通过快速浏览热力图,可以了解数据团队的整体表现。需要注意的是,这些评论是由分析师自行评估的。

统一的元数据成为决定性因素 + 数据产品的崛起(Sanjeev Mohan)

上面我们展示了Sanjeev关于统一元数据成为决定性因素以及他对数据产品崛起的预测。Sanjeev以Microsoft Fabric、Databricks Unity Catalog和一些其它证据为例。我们进一步总结了Mohan的预测如下:

数据目录与数据产品分析总结(2023年回顾)

回顾前一年的预测,显然在数据目录和数据产品方面的期望不仅得到了满足,而且超出了预期,特别是在AI迅速发展的背景下。数据目录转变为多面手工具以及数据产品的主流化突显了这些领域的显著进展。

要点

  • 数据目录的演变:数据目录已经超越传统角色,扩展了其功能,包括数据质量、安全性和隐私等特性。值得注意的发展包括Unity Catalog将AI模型目录与数据目录集成以及Microsoft Fabric的统一架构方法。

  • 数据产品的主流化:数据产品已经越来越成为数据战略的核心,如Intuit拥有900个数据产品,并要求仅通过这些产品访问数据。

  • 定义和示例的扩展:对于什么构成数据产品的范围已经扩大,现在包括RAG管道和AI代理等元素。LLM(Large Language Models)推断整合到数据产品中是这一趋势的显著例子。

  • AI的整合:AI相关性的意外激增进一步推动了数据目录和数据产品的重要性和能力,提供了新的维度和应用场景。


结论

在AI的持续发展影响下,数据目录和数据产品不仅满足了去年设定的期望,还取得了显著的发展。现在,数据目录不仅是存储数据的仓库,还在数据管理的各个方面发挥着关键作用。与此同时,数据产品已经从小众概念逐渐成为数据战略中的核心工具,其应用范围不断扩大。这一积极进展标志着向更集成、增强AI的数据管理解决方案迈进的趋势。

重新思考现代数据堆栈(Tony Baer)

为了进一步支持自己的观点,Tony对过去一年现代数据堆栈的性能进行了深入分析,揭示了进展和挑战交织的复杂图景。这一概念旨在模块化从事务性到分析性数据的过渡,取得了一些领域的显著进展,但也引入了一些复杂性。

要点

  • 模块化和复杂性:试图模块化数据处理导致了执行中的额外复杂性。

  • 在分析和事务数据平铺方面取得的进展:在合并分析和事务数据库方面取得了显著进展,如Oracle对MySQL的增强和Google与AlloyDB合作的证据所示。

  • 亚马逊的整合努力:AWS在数据库整合方面取得了进展,利用Aurora的基于日志的复制技术连接数据库,包括对Postgres和DynamoDB的扩展。

  • 数据库ML:这个领域取得了可观的增长,包括Redshift与SageMaker的整合以及Oracle和Google BigQuery的数据库ML模型。

  • 数据转换和流式处理:ELT(抽取、加载、转换)在云环境中取得了进展,但像Fivetran和DBT这样的工具的持续使用表明在工具整合方面仍然存在挑战。

  • 在流式处理和数据管道管理方面进展缓慢:在流式处理和数据管道管理方面进展有限,通过生成式AI可能会在未来改进。


结论

尽管现代数据堆栈在某些领域(如数据库整合和机器学习)取得了显著进展,但仍面临简化复杂性和实现各种工具无缝集成的挑战。不断变化的格局表明,生成式AI在解决这些挑战方面可能发挥重要作用,特别是在数据管道管理方面。

SQL卷土重来!(Carl Olofson)

SQL复苏与重要性回顾(2023年回顾)

与一些关于SQL消亡的早期预测相比,过去一年不仅展示了其弹性,还突显了它在数据管理领域的日益重要性。尽管最初有关其过时的说法,但数据库行业的主要参与者越来越多地接受了SQL,强调了它的持久重要性。

要点

  • MongoDB转向SQL:MongoDB曾对SQL持负面态度,引入了SQL查询机制,表明通过与客户需求对齐的态度发生了重大转变。

  • 竞争对手拥抱SQL:Couchbase发布了基于列的SQL分析引擎,Redis多年来一直支持SQL,进一步表明了这一更广泛的行业趋势。

  • Databricks采用SQL:曾专注于Spark的Databricks已经开发了自己的SQL功能,突显了战略方向的变化。

  • 基于SQL的DBMS引擎的普及:领先的DBMS引擎,如Oracle、MySQL、Microsoft SQL Server和PostgreSQL仍然基于SQL。Oracle已扩大了其SQL提供,进一步投资于诸如MySQL与HeatWave和Postgres的技术,表明市场机会不断增长。

  • 应用程序开发人员的偏好:尽管应用程序开发人员更喜欢文档导向数据库,如MongoDB,但SQL仍然具有相关性。

  • 多模型的未来:该行业正在朝着多模型方法发展,其中数据库支持多种数据格式和访问方法。AI和生成式AI趋势正在加强这种转变。

  • SQL的分析力量:SQL仍然是业务数据分析的强大工具,能够处理各种数据查询,而无需预定的数据库结构。


结论

SQL并没有过时,反而经历了一次复兴。各大数据库公司正在越来越多地将其整合到自己的平台中。随着数据管理行业向多模型未来发展,SQL在数据分析中的灵活性仍然非常宝贵。这一趋势进一步证实了我们的观点,即SQL将在业务数据分析领域保持其重要地位,尽管数据库技术和格式日益多样化。

2023年数据定义的扩展(Dave Menninger)

数据定义和GenAI影响的总结(2023年回顾)

过去一年,数据的定义发生了显著的扩展,主要受到生成式AI(GenAI)的出现和整合的影响。Menninger指出,所有分析师回顾预测中都存在一定程度的红色,因为生成式AI的强调程度远未达到市场所见的程度。尽管如此,这种转变已经引起了对各种与AI相关的过程和概念的增加关注,尽管一些领域,如指标存储,相对较少受到关注。

要点

  • 数据定义的扩展:GenAI在拓宽对数据的理解和范围方面发挥了关键作用。

  • 对AI过程的增加关注:在特征存储和模型管理方面,尤其是在管理大型语言模型(LLMs)和其它AI模型方面,人们对AI过程的兴趣日益增加。

  • 数据共享标准:由Databricks和Snowflake之间的竞争推动的数据共享标准的出现与之前关于数据产品的讨论一致。

  • 专注于指标存储的供应商:尽管有专门从事指标存储的供应商,但与数据分析的其它方面相比,该领域在治理和整合方面并未引起太多关注。

  • 在目录中更广泛包含的潜力:我们期望在数据目录中更广泛地包含与AI相关的过程,尽管这一领域的进展被更为谨慎地评估。


结论

GenAI对数据领域的影响是显而易见的,与AI相关的过程和数据共享标准已经取得了显著的进步。然而,某些领域如指标存储和将AI过程全面整合到数据目录中的发展并没有达到预期的水平。这种不同步的进展突显了数据行业的动态性,其中一些趋势已经崭露头角,而其他趋势仍在等待进一步的探索和投资。

BI/分析报告/仪表盘变得同质化,嵌入和自动化崛起(Doug Henschen)

嵌入BI和分析趋势总结(2023年回顾)

在2023年,嵌入式BI和分析的趋势继续向上发展,与先前的预测相一致。今年的进展侧重于将洞察力直接集成到应用程序内的决策过程中,而不是依赖独立的报告和仪表盘。

要点

  • 在决策点上的集成:明显向着在应用程序内的决策点直接嵌入洞察力的转变,远离独立的分析工具。

  • 开发工具的扩展:软件开发工具包(SDKs)和细粒度API的可用性增加,促进了分析集成到应用程序中。

  • GitHub和CICD的改进:与GitHub和持续集成/持续部署(CICD)能力的改进,以及低代码和无代码开发选项的兴起相结合。

  • 工作流自动化和事件架构:BI和分析供应商开始利用事件架构进行工作流自动化,使得可以在应用程序内直接触发操作。

  • 企业应用集成洞察力:主要的企业应用程序供应商,如Oracle、SAP、Salesforce和Workday,越来越多地在其平台内嵌入了洞察力。

  • 2023年底的发展:Microsoft Teams中宣布了类似Microsoft Co-pilot、Power BI的自然语言查询、Tableau的Pulse和Amazon Q等工具,尽管许多仍处于预览阶段,但表明了在2024年进一步进展的轨迹。


结论

在2023年,嵌入式BI和分析领域取得了显著的进步,主要关注在企业应用程序的工作流内,使数据驱动的洞察更易于访问和操作。新工具的开发以及将分析集成到广泛使用的企业平台中,都表明数据分析方法在商业环境中正朝着更无缝、高效和用户友好的方向持续发展。这一趋势有望在2024年进一步加速,随着自然语言处理和AI集成的最新进展。


2024年数据分析师预测

以下是2024年预测的表格,其中涵盖了AI以及其他多个领域,包括新型数据平台、治理、元数据、数据库和技能缺口等。我们将对这些预测进行深入探讨。

“智能数据平台”崛起...

Sanjeev Mohan预测,新一代数据平台将崭露头角,将AI与数据治理融为一体,并使开源大型语言模型(LLM)超越专有基础模型。我们一直在探讨超越Snowflake、Databricks、Google、AWS、Microsoft等现代数据平台的下一代数据平台,现在我们还要将Oracle纳入考虑范围,因为它是数据库领域的佼佼者。

Sanjeev的预测涵盖了许多内容,我们对他所做的预测进行了整理,并整合了Doug Henschen和Dave Menninger的反馈意见。

“智能数据平台”预测总结(2024)

Mohan对2024年做出的主要预测是“智能数据平台”的兴起和普及,这代表将AI直接整合到现有数据堆栈中取得了显著进展。这个概念的关键在于尽量减少数据移动,将包括AI模型和分析引擎在内的各种组件整合到一个统一的平台中,

要点

  • AI整合到数据堆栈中:AI直接整合到现有的数据堆栈中,减少了对单独AI特定数据移动的需求。

  • 基础设施和存储层:该平台包括一个跨云基础设施层和一个统一的存储层,存储和计算被分离。

  • 分析引擎和AI模型:包括各种分析引擎(例如Spark、SQL)和AI模型(开源和专有),如来自OpenAI或Hugging Face的模型。

  • 数据产品和AI代理:数据产品和BI仪表盘的延续,配以能够编排任务的AI代理。

  • AI和数据治理融合:迈向AI治理的变革,基于传统的数据治理,包括模型认证和应用场景关联。


结论

智能数据平台被构想为一个综合性的集成系统,将数据管理和AI功能融为一体。预计该平台将简化流程、增强分析能力,并为数据和AI模型提供更加紧密的治理结构。

其他分析师的反馈

对于Sanjeev的这一预测,Doug Henschen和Dave Menninger对其宏大的愿景表示赞赏,但对其实施的即时可行性持谨慎态度。

分析师关键洞察

  • 愿景宏大但尚待时日:分析师们认为,这一愿景非常宏大,目前市场尚未准备好实现这一复杂性,可能仅适用于行业领先的公司。

  • 数据库供应商与GenAI:存在数据库供应商自行开发生成模型的倾向,但整个行业在GenAI的实施方面仍处于初级阶段。

  • 市场认知与实际应用:分析师们指出,这一宏大愿景与当前的市场认知和准备程度之间存在差距,许多公司对先进的数据平台仍不太熟悉。

  • 技能挑战:关注构建此类平台所需的各种技能集,这表明分析处理工具可能仍然是分离的。

  • 开源与商业模型:观察到开源模型和商业模型的采用程度相当,这表明AI领域采取了多样化的方法。


总的来说,尽管认可智能数据平台的创新潜力,分析师们提醒不要高估当前市场的准备度,并强调这一重大技术变革的渐进性质。

GenAI简化数据库设计、部署和运营

GenAI和ML在数据库运营中的总结(2024年预测)

Tony对2024年的预测聚焦于更深入地将生成式AI(GenAI)和ML融入到数据库运营中,改变数据库的管理和交互方式。这种整合预计将带来更为微妙但渐进的改进,而不是急剧的变化,增强数据库设计和管理中的自动化和效率。

要点

  • 数据库中的隐形自动化:GenAI和ML将更深度地嵌入到数据库中,带来自动化改进。

  • 渐进改进:预期的变化包括数据库设计的渐进改进,如实体提取和数据建模。

  • 合成数据生成:利用GenAI根据现有数据特征生成合成数据。

  • 代码生成的初步步骤:开始使用GenAI创建数据转换管道,未来预计会有更复杂的实现。

  • 在治理中的应用:GenAI将应用于数据库管理治理,增强元数据发现和文档化。


结论

GenAI和ML有望进一步渗透到数据库运营中,为处理复杂数据任务提供更复杂、自动化和高效的方式。这一趋势代表着通过智能技术简化与复杂数据系统的交互的转变。

其他分析师的反馈

Carl Olofson的回应对该预测增添了以下内容。他确认了其潜力,同时强调了其与更广泛数据管理趋势的协同关系。

分析师关键洞察

  • 简化复杂性:将GenAI整合到数据库中,被视为一种简化复杂企业数据交互的有效方式。

  • 增强数据平台:这些进步被视为构建智能数据平台的关键步骤,旨在实现更精确和高效的数据管理。

  • 人机协同:Carl强调了GenAI在克服数据项目中人类局限性方面的优势,例如疲劳和无聊,这表明了更无缝、连续的数据管理流程的可能性。


Olofson总体上赞同这一预测,认为它是数据库管理的一个现实和实际的演进,与更广泛的智能和自动化数据平台的趋势相契合。

数据统一推动合理化:关注数据安全与治理

Carl Olofson的2024年预测如下所示。他预测GenAI和其它发展将催化数据孤立地理性化,以实现组合数据应用场景,最终创建治理挑战。因此,尽管有些人可能认为这是显而易见的,我们问Carl是否预测组织将能够在2024年取得成功,还是这种治理挑战会造成不可逾越的障碍,阻碍积极结果?

数据组织和生成式AI挑战(2024年预测)摘要

Carl对2024年的预测深入探讨了企业内数据组织的复杂性,特别是在生成式AI的背景下。它强调了企业数据生态系统当前的混乱状态以及生成式AI开始以前所未有的方式组合数据可能引发的潜在挑战。

要点

  • 数据无序的当前状态:企业面临着一个混乱的数据环境,数据以分散的方式在各种应用程序中创建和使用。

  • 生成式AI引发复杂性:预计引入生成式AI将以新颖、有时是非理性的方式组合数据,引发意想不到的挑战。

  • 传统数据的关注点:需要特别关注传统数据,尤其是在保密性和合理化方面。

  • 长期合理化过程:将数据合理化以充分利用生成式AI被认为是一个漫长的、可能持续十年的努力,涉及大量的人力投入。


结论

将生成式AI整合到企业数据系统中并非简单的附加组件;它要求对数据组织和管理的根本方式进行重新评估和重构。这个过程预计会相当复杂且耗时,需要谨慎的规划和执行。

其他分析师的反馈

Tony Baer和Doug Henschen对这一预测的反应是承认其中固有的复杂性,并对将生成式AI整合到混乱的数据环境中的担忧表示认同。

分析师关键洞察

  • 复杂性和数据谱系:分析师们一致认为,生成式AI将使企业进入更加复杂的数据情境,强调了理解数据来源的数据谱系的重要性。

  • 企业的异构性:认识到企业数据环境的多样性,分析师们一致认为没有单一的数据平台能够统一满足所有需求。

  • 数据环境的适应性:未来的数据环境应具有适应性,能够处理各种上下文和真相,反映企业数据的动态性质。


分析师们普遍同意这一预测,强调在协调异构数据环境方面的挑战,以及需要灵活、多层次的数据管理方法。

GenAI在苛刻应用场景中无法取代传统AI

Dave Menninger预测,尽管GenAI备受瞩目,但在最苛刻的应用场景中它无法取代传统AI。他预测AI技能缺口将持续存在。这是另一个看起来毫无悬念的预测,因此我们请Dave提供一些数据点以增加这一判断的难度。

生成式AI局限性和机会(2024年预测)摘要

Dave对2024年的预测突显了生成式AI(GenAI)在苛刻应用场景中的局限性,尽管它迅速发展并日益受欢迎。它强调在采用GenAI时需要一种平衡的方法,承认其在某些领域的优势,同时认识到在更复杂、专业领域的当前局限性。

要点

  • GenAI在不同应用场景中的影响各异:GenAI在文档摘要和自然语言辅助等领域表现出色,但在银行等更苛刻的领域表现不佳。

  • 传统AI需要高级技能:尽管GenAI在某些领域提供了便利,但为复杂任务开发预测性AI模型仍需要专业的技能和知识。

  • AI开发中存在技能缺口:AI模型开发存在显著的技能缺口,许多组织缺乏必要的专业知识。

  • 建议谨慎导入:建议不要过度依赖GenAI进行关键和专业应用,考虑到其当前的局限性。


结论

尽管生成式AI取得了令人振奋的进展,但我们仍需认识到其局限性,不应过度依赖它来处理复杂和关键的任务。采用一种平衡的方法,既要重视GenAI的优势,也不忽视传统AI技能的价值,对于实现有效且负责任的AI应用至关重要。

其他分析师的反馈

Sanjeev Mohan和Carl Olofson对这一预测做出回应,强调了GenAI的局限性,并主张在技术进步和熟练的人类干预之间保持平衡。

分析师关键洞察

  • 对AI发展的历史视角:将其与全球网络早期阶段进行比较是有益的,这表明GenAI正处于类似的初创阶段,可能在未来几年发生重大变化。

  • 熟练专业人员的机会:分析师们一致认为,尽管GenAI自动化了许多任务,但它将为受过高度培训的个人提供机会,以引导其发展和应用。

  • 人类监督的重要性:强调了在GenAI可能无法胜任的复杂情况下进行人类干预和专业知识的必要性。


分析师们一致认为,尽管GenAI是一项重要的发展,但并非所有挑战的灵丹妙药。在复杂和微妙的应用中,熟练的人类监督仍然至关重要。

GenAI对BI和预测性分析价值链产生实质性影响

最后一个预测来自Doug Henschen,他预测GenAI将对组织处理BI和预测性分析的方式产生实质影响。Doug的预测对数据分析师、在管道中工作的数据专业人员、Tableau专业人员和最终业务用户都具有重要意义。我们想知道Doug是否预测我们将在年底之前看到可测量的转变?

嵌入洞察和自然语言查询于BI分析(2024年预测)摘要

2024年的预测延续了2023年的趋势,重点是在业务智能(BI)分析中越来越多地集成洞察和自然语言查询。这一趋势的特点是自然语言查询功能的增强,得益于生成式AI的进步。

要点

  • 洞察力嵌入增加:有一种趋势是将洞察力直接嵌入人们工作的地方,摆脱传统的BI平台。

  • 自然语言查询的改进:生成式AI有望显著提高自然语言查询的准确性、冗余性和解释能力。

  • GenAI工具的普及:在2023年的一年中进行了各种GenAI增强工具的宣布和预览后,2024年有望看到这些工具的普及。

  • 分析师角色的变化:预计分析师将更加专注于策划数据、问题和提示,引导主流业务用户与这些先进工具进行互动。


结论

将生成式AI整合到BI分析中有望彻底改变洞察力的获取和交互方式,提升自然语言查询的体验,并在各种应用中实现这些功能的无缝集成。

其他分析师的反馈

Dave Menninger、Tony Baer和Sanjeev Mohan对这一趋势的潜力做出反应,强调了该趋势在普及分析访问和转变分析师角色方面的潜力。

分析师关键洞察

  • 扩大对更广泛劳动力的分析访问性:分析师们认为GenAI是扩大对更大部分劳动力的分析访问的关键。

  • 策划数据和问题的重要性:在这种新环境中,数据分析师的角色将转向策划数据和提出正确问题。

  • 提示工程的演变:与互联网搜索的早期阶段相类似,分析师们预见提示工程随着时间的推移变得更加直观和不那么复杂。


分析师们普遍同意这一预测,强调了生成式AI在使分析更易于访问方面的变革潜力,并将分析师的关注重心转向数据互动的更微妙方面。

-----
Source:David Vellante; Predictions 2024 – Deciphering GenAI's effect on data, governance & skill gaps; JANUARY 6 2024


---【本文完】---

近期受欢迎的文章:

  1. 数据平台的崛起:AI全面重构企业数据框架

  2. 非结构化数据激增与AI推动数据服务创新

  3. Databricks数据智能平台:颠覆性变革的洞见

  4. VAST Data深度访谈:超越计算与存储边界,迈向第六数据平台

  5. 基于CXL的HPC和AI工作负载的内存解耦(PPT)


更多交流,欢迎添加我的微信

---【下面是广告】---

闲着也是闲着,分享一些我觉得不错的东西

文章转载自Andy730,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论