暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

这位「新同事」入职后,竟让数据分析效率提升100%?

359

1. 导读

随着Gartner发布2023年中国数据、分析和AI技术成熟度曲线,未被收录的数据中台正式成为历史。从2015年提出受到热捧,到变得备受质疑,直至被市场抛弃,究其原因是投入大、成本高。虽然保障了数据供给的一致性和质量,但需求响应以周、月为单位,让业务侧难以忍受而与之对应的,近几年Data Fabric作为一种新兴的数据管理设计理念,正获得各厂商的青睐。
Data Fabric重点强调敏捷数据交付通过优化跨源异构数据的发现与访问,将可信数据以灵活且业务可理解的方式交付给数据消费者,实现敏捷的数据交付。Gartner认为,Data Fabric能够帮助企业减少50%数据管理人力成本和70%工作量,并加快价值实现速度。
不过,如何有效降低数据分析门槛,实现数据价值的最后一公里传递,依然是当前业务面临的一大挑战。这一问题核心在于如何让非专业人士,包括业务决策者、一线员工,都能便捷地使用数据,从而释放数据潜在价值。
值得庆幸的是,生成式AI技术的出现为解决这一难题带来了曙光。生成式AI颠覆了人机交互的传统范式,赋予每个人利用AI进行低门槛数据分析的能力(如通过自然语言查询与分析数据)。我们在Gartner报告中也观察到,生成式AI在极短的时间内即跃升至热门关注区间的顶峰,这充分反映了市场对于借助生成式AI降低数分门槛的高度期许。
综上,Data Fabric与生成式AI的强强联合,不仅能够实现敏捷数据交付,还有效降低了数据分析门槛,让人人都能数据分析成为可能。

阿里云瑶池数据库旗下的数据管理DMS作为阿里云统一的用数平台,在2021年初就开始探索使用Data Fabric理念构建逻辑数仓来加速企业数据价值的交付,2023年推出基于大模型构建的Data Copilot,降低用数门槛。

近期,我们将Notebook、逻辑数仓(统一查询)、Data Copilot(生成式AI)进行有机组合,推出“DMS数据工作站”功能,能够端到端地解决用数难题,给用户带来全新的分析体验。

DMS数据工作站这位「新同事」的加入,可以结合大语言模型为业务开发、数据开发、分析师和数据运营赋能,提升数据交付效率和数据自助分析的效率。


2. DMS简介
在进入分析场景介绍前,先为不熟悉DMS的同学进行一个简单科普,DMS是阿里云在2013年发布的数据管理服务,作为阿里云统一的用数入口,其提供了包括多云多源管控、数据安全、数据库开发管理、数据分析等功能,是多年来阿里集团用数最佳实践,能够满足企业一站式数据管理诉求。上线至今服务了超过10万+企业客户产品周活6万+。

3. DMS数据分析与应用
如上图所示,DMS通过Data Fabric(主动元数据、知识图谱、数据虚拟化、动态集成、访问控制、AI/推荐)+大模型构建智能数据管理底座,通过数据管理底座底座赋能数据分析与应用场景。Data Fabric的整体能力我们留待下次分享,本次主要针对DMS数据分析与应用结合场景拆分的四个核心功能进行介绍:安全托管、Copilot、Notebook、AI Agent

▶︎ 安全托管

在数据分析与应用场景中,用数管控是基本要求,安全托管是数据管理DMS在阿里集团数据库权限访问控制最佳实践,为企业提供一系列数据库权限管控的集合,可帮助企业实现多云数据库统一权限管理,进而确保用数过程的安全。

▶︎ Copilot


DMS Data Copilot支持用户通过自然语言的方式生成SQL,相较于其他NL2SQL场景对大规模精准数据标注的高度依赖性,DMS巧妙借力于先进的大模型技术,能够对用户过往执行过的SQL语句以及历史对话记录进行深层次的知识推理与挖掘,进而构筑并自主维护一个专业且实时更新的领域知识库,这一过程几乎无需大量人工介入。
在实际应用中,DMS Data Copilot在互动交流的过程中能够展现出卓越的理解力和应变能力。它能理解用户的复杂意图,并依据用户的历史行为和当前需求,智能推荐合适的表,生成相应的SQL片段。同时,对于Copilot使用的每项信息,用户都能够进行灵活调整和优化,这无疑显著提升了系统的冷启动效能和结果准确度,使得用户与数据库之间的沟通更为流畅自如。

▶︎ Notebook

DMS为分析师提供了标准的Notebook功能满足基础分析场景诉求,同时对Notebook能力进行增强,提升开发效率:

● 支持通过Copilot以自然语言的方式生成SQL语句(Python生成规划中)

● 新增SQL Cell(Cell是Notebook的最小组成单位,类似单独的一个开发窗口),且SQL Cell查询结果可直接被Python Cell以data frame的形式引用;

● SQL Cell通过Copilot支持SQL代码自动生成;

● SQL Cell能够进行查询和结果集可视化;

● SQL Cell具备Data Fabric数据虚拟化能力,能够实现多源数据访问而无需移动数据,有类似数据库的功能。
● 支持逻辑建模和编排调度(规划中)

▶︎ AI Agent

AI Agent是一类数据应用的总称,开发人员可以自主构建对外的智能数据应用,目前DMS支持创建查数Agent应用,开发人员通过“创建Agent->选择Agent涉及表->测试/调试->发布”流程即可快速构建一个查数Agent,通过查数Agent可以让用数人员通过自然语言进行数据查询和分析,应对日常高频多变的查数诉求,且开发可根据日常用数的系统反馈不断调试迭代提升准确性和覆盖面,从而避免让开发、分析人员成为“取数机器”,进一步提升企业数据驱动效率。



4. 快速入门

这里以一个数据集成类的SaaS产品经营分析为例,我们需要通过DMS数据工作站完成集成任务量的趋势分析以及构建一个查数Agent应对任务相关的日常查询分析诉求

4.1 准备工作

1)从DMS控制台找到数据集成与开发入口->进入DMS数据工作站->新建项目空间。
2)在项目空间添加任务分析所需的相关库和表。

4.2 Notebook分析

1)创建Notebook文件

2)使用Notebook对任务趋势进行分析,过程中可以通过开启Copilot来生成分析所需的SQL快速应用到Notebook中。

在Copilot的帮助下我们能够快速提升代码开发效率,到这里趋势分析就完成了。

4.3 AI Agent构建

接下来我们构建一个查数Agent应对任务相关的日常查询分析诉求。
1)创建AI Agent

2)新增任务分析相关表

3)添加测试集

4)回归与调试
5)通过自然语言来获取任务相关的查询和分析结果(比如询问“帮我分析下成功的任务中,各种业务类型的任务分布”)

5. 费用说明
「DMS数据工作站」预计将于5月中旬开启公测,公测期间用户可免费使用,敬请期待~

了解更多


数据管理DMS(Data Management)是一款支撑数据全生命周期的一站式数据管理平台。DMS提供全域数据资产管理、数据治理、数据库设计开发、数据集成、数据开发和数据消费等功能,致力于帮助企业高效、安全地挖掘数据价值,助力企业数字化转型。

了解阿里云DMS产品详情:🔗 https://www.aliyun.com/product/dms

点击文末「阅读原文」可了解「DMS数据工作站」详情,该功能目前处于邀测阶段欢迎加入钉钉群申请开通试用👇

欢迎钉钉扫码入群交流

钉钉群号:44962304

/ END /

点击 阅读原文 了解 DMS数据工作站 更多内容

文章转载自阿里云瑶池数据库,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论