暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

2024年数据发展趋势报告

Andy730 2024-03-30
131

摘要

本研究深入分析了上一财政年度内,超过9000个Snowflake账户对数据云功能和能力的应用情况,旨在揭示数据基础设施基础建设的发展动向,以及用户在探索和应用高级AI方面的趋势。为与Snowflake财年保持一致,我们主要对比了2023年1月与2024年1月的数据,除非某项功能在该年度内进入公共预览阶段,此时我们会将其首个完整公共预览月份的数据与2024年1月进行比较。

本报告的主要发现包括:

数据基础的加强

  1. Python作为AI编程的首选语言。因其易用性、活跃的社区支持以及丰富的库和框架生态系统,其使用量激增571%,远超其他编程语言。随着企业深入高级AI领域,掌握Python技能的重要性日益凸显。
  2. 企业开始有效利用非结构化数据。据估计约90%的数据为非结构化形式,如视频、文档等。非结构化数据处理的使用量增长了123%,这对于高级AI尤其有益,因为专有数据能够为大型语言模型提供优势,释放出这部分未充分利用的数据的巨大价值。
  3. 企业对数据治理采取了更为精细的方法。不仅在数据上实施了更多的治理措施,还采用了多样的标记标准和功能。数据显示,数据治理功能的使用量增长了70%-100%,而受保护数据的查询量更是增长了142%。这表明数据治理的目的不是为了限制数据的使用,而是为了确保数据能够安全、合规地被利用。

AI技术的普及化

  1. AI技术的民主化已经成为现实。通过Snowflake Cortex的机器学习功能,自2023年6月关键功能开始公共预览以来,采用基于ML功能的活跃账户数量增长了67%,这为非技术用户提供了更多可能性。
  2. 大型语言模型(LLM)的爆炸性增长正在发生,尤其是在Streamlit开发者社区中,上一个财年中有20,076名独特开发者在33,143个由LLM驱动的应用上工作,预示着AI的力量已经到来。
  3. 聊天机器人的兴起,从2023年5月到2024年1月,在Streamlit社区中,聊天机器人在LLM应用中的比例从18%增长到46%,这一趋势仍在持续上升。
  4. 企业期望应用程序和数据集成在同一数据平台中。通过Snowflake原生应用框架,用户可以在数据平台内构建应用程序,与2023年7月相比,2024年1月基于Snowflake原生应用的使用情况增长了311%,应用使用率增长了96%。

AI时代的加速推进

我们已经迈入生成式AI时代一年半,发展势头只会更加迅猛。OpenAI发布了ChatGPT和GPT-4,Meta开源了Llama和Llama 2,以及其他一系列推动大型语言模型发展和企业实际采用的创新和公告,这些都为AI领域带来了更多的激动和机遇。

在分析Snowflake数据云的使用情况时,我们关注的是企业如何准备迎接一个不断展开的高级AI时代,这个时代正在加速并改变他们的业务运作方式。

Snowflake数据云覆盖了众多行业的数千家组织的数据、模型和应用程序。通过观察它们在平台内的活动,我们可以清晰地描绘出企业如何应对当前挑战并为未来的成功做准备。

本报告不同于传统的行业研究,它不依赖于高管和从业者的主观估计,而是基于全球企业如何实际决策和运用资源来利用数据的实证研究。通过这一视角,我们可以看到一个关于现代、数据驱动的企业如何在人工智能革命的浪潮中塑造其数据战略的清晰图景。简而言之,这些组织的业务和技术领导者正在为未来做准备,他们正在踏入大型语言模型和生成式人工智能的新世界。更为重要的是,他们正在加强他们的数据基础。

尽管高级人工智能的具体技术——算法和应用程序——非常强大,但它们并非孤立存在。要取得成功,企业必须在坚实的组织实践和技术堆栈之上构建这些闪亮的新技术,确保公司的数据可用、安全且得到适当治理。换言之,大型语言模型是锦上添花,而坚实的数据基础设施才是根本。

在2024年的预测报告中,我们的内部专家建议,面对新的人工智能时代,正确的应对策略不是匆忙制定新的数据战略,而是加速执行您之前已经在遵循的坚实、深思熟虑的实践。

从Snowflake用户的数据管理实践来看,我们确实看到了这一点:专注于打破数据孤岛、完善治理实践,并最终应对非结构化数据的洪流。这是企业迈向未来的坚实起步。

为数据基础加固

当前,各组织正通过多种手段确保数据的安全性与可用性,以满足当前以及未来(包括下周)各类工具、应用程序和人工智能技术的需求。在这一基础层面上,我们发现过去一年中有三个显著的趋势。

虽然单独观察,每个趋势似乎仅是关于信息技术组织如何应对挑战的独立现象,但若将它们综合起来分析,则揭示了一个更为宏大的图景。即,首席信息官、首席技术官以及首席数据官们正在推动其组织的现代化进程,积极探索人工智能的应用,解决数据处理问题,并致力于提升资源使用的效率——这些措施均为把握更高级人工智能发展机遇所不可或缺的步骤。

趋势一:Python成为AI编程的领先语言

在Snowflake平台上,开发者能够运用多种编程语言进行开发工作。我们发现,某些语言的受欢迎程度呈现出显著增长,这一点颇引人注目。特别是在过去的一年里,Python的使用率急剧上升。Python之所以备受青睐,原因包括但不限于以下几点:
  • 它的语法简洁明了,易于学习和理解,让开发者能够专注于解决AI领域的难题,而非深陷复杂的语言结构之中。
  • 它拥有一个庞大的库和框架生态系统,极大地简化了AI任务,无论是构建神经网络还是进行自然语言处理,都变得不再遥不可及。
  • 它背后有一个活跃且不断壮大的社区支持,这为学习和问题解决提供了强有力的加速器。
  • 它的跨平台特性和可移植性使得开发者能够在不同的操作系统和环境中部署AI应用。
  • 它在数据处理方面的强大功能,使得数据操作变得轻而易举,而数据处理恰恰是任何AI/ML项目的核心挑战所在。

综合来看,Python让开发者能够更加专注于问题解决本身,而非语言的复杂性。他们能够快速行动,加速原型设计和实验过程——这在开发团队首次尝试进入AI领域的高级项目时尤为重要。在Snowflake数据云中,Python正受到越来越多开发者的重视。

特别是在Snowflake扩展其可编程性特性的Snowpark中,Python的使用增长速度远超Java和Scala:Python的使用量增长了571%,而Scala和Java分别增长了387%和131%。

AI/ML与Python共同成长

随着Python在Snowpark中的使用量激增,一些在Snowpark中广受欢迎的AI/ML开源Python库的使用量也随之增长了335%,其中包括:
  • SCIKIT-LEARN的使用量增长了474%。
  • XGBOOST的使用量增长了357%。

开发者之所以将更多的AI/ML工作引入Snowflake,是因为他们需要一个统一的数据平台,并且能够接触到大量用于构建、训练和运行高级模型的数据。我们认为,这种增长不仅仅是对现有平台工作的一种转移,更是对高级AI实验的实质性增加。

趋势二:企业开始挖掘非结构化数据的潜力

在企业日常生成的数据中,非结构化数据占据了绝大多数,据IDC数据显示,2022年组织产生的数据中有高达90%属于非结构化类型。长期以来,如何从这些海量的非结构化数据中提取出有价值的信息,一直是技术领域面临的重大挑战。这一挑战不仅因为智能手机和社交媒体的普及而愈发严峻,同时也受到不断演变的监管政策和隐私实践的影响,这些政策和实践旨在管理所有类型的企业数据,无论是结构化还是非结构化。

值得注意的是,尽管自动化和人工智能技术在帮助我们从非结构化数据中提取信息方面发挥了重要作用,但数据的实际管理任务却变得更加复杂。

然而,即便在这样的背景下,Snowflake的用户群体已经开始从非结构化数据中获取价值,尤其是随着人工智能和机器学习技术的不断进步。这些数据类型正通过Python、Java和Scala等编程语言得到处理,而这些语言正是数据工程师、数据科学家和应用开发人员常用的工具。针对非结构化数据处理的编程语言套件自2023年6月27日起,已经开始提供公共预览或正式发布。

特别是Python,作为许多开发者、数据工程师和数据科学家的首选语言,其快速增长的使用率反映出,这些非结构化数据的工作流程不仅被用于构建数据流水线,还广泛应用于AI应用和ML模型的开发之中。

趋势三:企业对数据治理的重视程度日益提升

在众多基础性趋势中,数据治理的重要性不容忽视。尤其是在AI战略中,良好的治理机制对于防范LLM(大型语言模型)和生成式AI可能产生的不准确或不当输出至关重要。去年的趋势报告中,我们注意到随着数据法规的日益严格和消费者对隐私保护意识的增强,数据治理功能的采纳率有所上升。简而言之,我们的用户正在通过更多的数据标签来管理数据的访问与使用,确保数据能够被适当的受众所利用,同时防止未经授权的访问。

今年,这一趋势不仅持续存在,而且进一步深化。我们观察到,用户对于治理功能的应用不仅仅是限制性的,更是具有控制性的。对多种治理功能的广泛采纳反映出用户希望对数据进行更为精细的管理,以便能够将其更合理地提供给更广泛的用户群体,满足更多的应用场景。这种细致入微的控制对于负责任地挖掘敏感数据的潜在价值至关重要。

在数据使用方面采取更细致的方法的指标显示,以下治理功能的使用量呈现逐年增长的趋势:
  • 应用于数据对象的标签数量增加了72%。
  • 直接分配标签的数据对象数量增长了近80%。
  • 实施的掩码或行级访问策略数量增加了98%。
  • 应用了掩码策略的数据列数量增长了97%。
  • 对受策略保护的数据对象执行的累积查询数量增加了142%。

尤其是最后一项统计数据的重要性不容忽视。普遍存在一种误解,认为治理是一个不断说“不”的过程,会限制数据创新和数据使用的速度。然而,良好的治理机制旨在阻止不安全或不适当的行为,同时也是促进有效、负责任的数据使用的关键因素。我们注意到,随着标签和掩码策略的日益普及,对这些受到更严密治理的数据进行的操作也在迅速增长。

预计这些趋势将持续下去,因为越来越多的企业正在改进他们的数据治理方式,增加对数据的负责任使用,并从数据为其业务带来的实际益处中获益。

AI技术随应用程序的广泛应用

虽然构建一个稳固的数据平台、打破数据孤岛并寻求效率提升的战略目标已经被广泛认同多年,但在企业中,AI技术的潜力仍然大部分未被充分挖掘。然而,在大型语言模型(LLMs)和生成式AI技术成为媒体关注焦点的一年里,众多企业已经开始尝试并启动了一些初步项目。

在Snowflake数据云和Streamlit社区中,我们可以观察到围绕LLM领域和应用程序开发的相关活动,而在2023年全年,我们见证了对这些项目的巨大热情和积极的参与度。

与前述基础性趋势相似,在这些先进AI技术发展的初期阶段,我们识别出了四个主要趋势。

评估企业AI领域趋势的难点在于缺乏历史先例。在某些情况下,我们在2023年推出了一些新功能,因此并没有多年的历史数据可供比较。我们所观察到的,是用户对这些新功能的热烈反响,以及我们认为在这些早期阶段指引着用户偏好的模式。

趋势一:AI技术的普及化时代已经到来

LLM和生成式AI技术的一个重要优势在于,它们降低了使用门槛,使得用户无需成为专业训练有素的数据科学家也能轻松运用。通过自然语言的交互界面,用户可以像与真人对话一样与数据或应用程序进行交流,而数据或应用程序也能够以类似人类对话的方式给出合理的回应。这种理念被称为“AI技术的普及化”,正如业界营销人员所宣扬的那样。事实上,这一理念已经逐步成为现实。

尽管今年的报告中没有包含年度统计数据,但在2023年,我们观察到了广泛而强烈的热情。在Snowflake Cortex中推出的基于机器学习的功能迅速得到了采用,这表明在拥有坚实的数据基础的情况下,AI技术的实施可以十分迅速。这些功能极大地方便了非数据科学家使用机器学习算法。
  • 从2023年7月(公开预览结束后的第一个完整月份)到2024年1月,使用基于机器学习的功能的活跃账户数量增长了67%。这种初期的增长热潮在接下来的六个月里持续上升,反映出市场对这些“普及化”功能的热情和实用性。
  • 对比2023年7月与2024年1月的数据,月度使用量增长了90%。

虽然目前仍处于初期阶段,且这种增长热潮是从一个相对较小的起点开始的,但我们对那些旨在将先进AI技术的力量带给非技术用户的 tools 持续增长的兴趣感到非常振奋。这不仅有助于那些数据科学家资源相对匮乏且压力重重的团队避免了成为瓶颈,还使得这些专家能够专注于处理更为复杂和价值更高的项目。

趋势二:LLM技术的兴起——或许已悄然进入您的职场

大约一年半前,当生成式AI和大型语言模型(LLMs)成为技术讨论的热门话题时,人们普遍预测这类技术将无处不在,渗透到我们生活和工作的各个层面。虽然我们不能说这一预测已经完全变为现实,但我们确实见证了许多努力,旨在加速实现这一目标。
  • 在Streamlit开发者社区中,从2023年4月27日至2024年1月31日,我们观察到有20,076名独特的开发者参与了33,143个由LLM驱动的应用程序开发,这其中也包括了一些仍在开发阶段的项目。
  • 历史上看,Streamlit社区中有相当一部分用户并非来自企业,因此我们曾好奇这种大规模的增长是否主要是由个人实验所驱动。然而,在对1,479名受访者的调查中,我们发现有近65%的人表示他们所参与的LLM项目是为了工作目的。

此外,这些开发者似乎在持续提升他们作品的质量。通过利用矢量数据库和矢量搜索技术,开发者能够在相关概念之间建立联系,而不是单纯依赖于精确的单词匹配,这大大增强了LLM应用程序的创造力和实用性。

趋势三:聊天机器人的兴起

对话式用户界面的魅力在于其能够实现自然的交流对话。近几个月来,我们注意到了一个明显的趋势,即从易于构建、操作直观的单一文本输入的大型语言模型(LLM)向聊天机器人的演进。聊天机器人通过连续的文本交互,使用户能够逐步细化和完善输入内容。

再次审视使用Streamlit开发的超过20,000个LLM驱动的应用程序,我们可以清晰地看到聊天机器人的上升趋势。以2023年4月30日那周为例,单一文本输入应用占据了使用Streamlit构建的所有LLM应用的82%,而聊天机器人仅占18%。

自那以后,单一文本输入应用的使用比例有所下降,而聊天机器人的使用比例则呈现出上升趋势。到了2024年1月底,聊天机器人在LLM应用中的占比达到了46%,单一文本输入应用则占54%。

聊天机器人的这种稳定增长可能并不意味着市场对LLM应用需求的根本转变,而更可能反映出开发者越来越有能力创造出更为复杂的聊天机器人应用程序。这些应用程序提供了更大的灵活性和互动性,更好地满足了业务需求和用户的期望。

趋势四:企业追求在统一数据平台上集成应用与数据,以实现更佳的安全性与数据治理

虽然在技术上并不强制要求企业必须在其数据所托管的同一平台上构建LLM应用程序,但这样做无疑能带来诸多显著优势。通过实施统一的数据治理策略,避免了在不同计算环境间传输数据的需要,应用程序的开发速度得到加快,部署过程更为简便,运营维护的成本也相应降低。

基于此,为了进一步贯彻“将工作带到数据所在之处而非反之”的理念,我们在2023年推出了Snowflake原生应用程序框架。

Snowflake原生应用程序框架使用户能够在数据云中直接部署应用程序,同时利用Snowflake平台的三个核心层面——数据、处理能力和用户界面——来运行应用程序。但关键的问题是,用户是否真的对此感兴趣?

从早期的反馈来看,答案显然是肯定的。自原生应用程序框架在2023年6月27日进入公开预览阶段以来,对比2023年7月与2024年1月的数据:
  • 我们看到Snowflake原生应用程序的发布量增长了311%。
  • 这些应用程序的安装和采用率增长了147%。
  • 应用程序的使用率增长了96%。

这些数据表明,如果有可能,用户更倾向于在他们的数据平台内部——也就是数据所在之地——构建应用程序,而不是将数据副本导出到其他外部技术中。

坦白说,这样的选择是合情合理的。我们已经观察到,一个坚实的数据基础是组织成功实施AI项目的关键。企业希望在其数据平台上创建应用程序,正是这一原则的自然延伸。我们坚信,这很快将成为整个行业的新标准。

从打基础到能力提升

IT团队通常在后端默默耕耘,他们的努力使得用户能够享受到顺畅无阻的应用体验。最简单的应用程序背后往往隐藏着复杂的技术细节。这一点在LLM和生成式AI的应用上尤为突出。我们注意到,许多组织已经认识到了这一点,并在他们首次探索前沿AI领域的同时,加强了他们的数据基础设施建设。

我们观察到的一些基础性趋势直接关联到AI领域:强化而细致的数据治理;Python语言使用的增加;对大量非结构化数据的逐步理解和利用。其他趋势则显示出组织对于追求卓越和采纳新实践的意愿,以加速价值的创造,例如无服务器计算的兴起。

随着组织不断优化他们的基础设施,他们为AI项目的成功打下了坚实的基础,这些项目将带来可靠、符合伦理、安全且具有影响力的成果。我们在AI和应用领域观察到的趋势表明,进步正在逐步实现。

组织正在精心挑选他们的模型,构建更为复杂的LLM应用程序,使得AI技术更多地服务于广泛的用户群体,并享受统一数据平台所带来的种种优势。尽管围绕AI变革潜力的讨论声量很大,但根据我们在数据云中的观察,这些热烈的讨论正开始转化为实实在在的成果。


---【本文完】---

近期受欢迎的文章:

  1. AI推动Databricks创下销售业绩历史新高

  2. Databricks数据智能平台:颠覆性变革的洞见

  3. VAST Data赋能大规模AI运营

  4. 2022年Snowflake峰会 —— 关于应用和货币化数据

  5. NeuroBlade的SPU彻底改变了大数据分析(2篇)



更多交流,可添加本人微信

(请附姓名/关注领域)

文章转载自Andy730,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论