业界对于数据治理有很多概念,回到蚂蚁,我们在大数据治理方面,核心关注对企业运转非常关键的几个点,抽象出来即合规、安全、质量、架构、价值5个方面。

首先,要保证数据在业务上是可以流转起来,可用的。包含两点,第一要符合用户隐私、反洗钱等法律监管,保障数据是合规的。第二是保证数据在各个环境上的存储、流转和使用上的都是安全的。
其次,我们交付给业务的数据不能错,不能漏,不能延迟,这属于数据质量的范畴,解决让业务敢用数据的问题。
一. 数据质量治理
说到具体怎么保障大数据的数据质量,首先得看数据质量是怎么产生的。
面向蚂蚁有很多数据来源,不管是行为日志,还是系统服务端收集的数据,这里数据类型包含 DB 类、log 类的数据,还有一类是消息类数据,通过一系列工具会落地到蚂蚁的一站式大数据工作台里面,经过批流处理、分析洞察、决策服务。在这个过程中,数据从业务中来,同时经过大数据平台加工,最后数据又回到了业务中去。其中涉及到非常多的工具引擎,整个数据流转也是很复杂的,任何一个环节、任何操作都可能产生数据质量的问题,最后业务感知的问题就是数据错了、漏了、延迟了。
1. 数据质量治理挑战

用户方面,整条链路上有很多类型的角色参与研发,比如BI、技术同学、数据同学,还有大量产品、运营,其中每个人的基本认知不一样,专业技能水平也不一样,这就会导致很多人为的操作带来风险。
2. 金融级数据质量顶层设计
在这么复杂的挑战下,单点解决问题是很难保障的,我们需要有一个良好的顶层设计去解决这些问题。我们将其中的风险分成三类,第一是数据技术引擎风险,第二是数据内容本身风险,第三是数据应用风险。

3. 金融级数据质量技术目标
事后,重点是故障发现和故障恢复,需要具备可演练、可发现、可重跑的能力。主动发现重点建设一键故障定位、全链路数据核对等能力,快速恢复重点做分级恢复、区间恢复和旁路恢复。同时通过组织、文化、运营、流程让整个体系能够持续迭代和生效。
4. 蚂蚁数据质量治理架构
能力层,包含质量管控、质量识别、故障恢复和风险治理能力。我们还建立了统一质量元数据中心,结合大规模机器学习算法,尝试探索智能化的波动异常、离散异动等风险点识别。
5. 数据质量治理案例
在这个架构之下,围绕整体保障思路,介绍两个案例,一个案例是数据变更免疫,我们具体怎么做的。第二个是数据攻防演练,这是我们创新模式的探索,实施过程中也获得比较好的效果。


我们围绕变更事中,在任务发布环节沉淀了非常多的规则,目前的效果是高风险校验规则全年校验6000万次,高风险拦截规则全年累计大概600万次,上线后当年变更类的故障下降约90%,提前发现并规避了很多潜在故障。

- 我们如何不影响生产?
- 如何选择攻击对象?
- 如何进行有效的攻击?
在有效攻击上,我们确保所有攻击手段要能帮助业务发现有效生产风险,核心是通过历史故障分析和平移,再加上重大业务变更预演。另外在核心攻击能力上,构建了SQL注入能力,包含比较多的方法,比如数据大幅波动、内容格式异常、资金错位攻击;还有节点注入,包括任务重复回流,重复重跑等。
二. 数据计存治理(成本)

1. 数据计存治理核心思路

2. 数据计存治理策略

3. 面向开源
- 第一,数仓一旦跟在线资源做混部,怎么能确保它在一些高峰期不受在线资源抢占,保证数仓高保业务的稳定运行。
- 第二,因为原来引擎是存储计算一体,数仓有大量的数据交互,一旦跨城,会大量访问带来的网络开销,会直接影响数仓的正常运行。

- 所有数仓应用层的数据访问,统一收敛到数据中间层。
- 对中间层里面的热数据做跨层冗余。
- 对于高保业务给予独占资源,跟在线资源做隔离,防止挤占。
第二,数据迁移混部方案。

事前做项目规划,进行迁移评估,对整个业务项目、资源使用做评估,产出迁移的列表。
当我们把数仓搬到混部集群,和在线集群资源混在一起用的时候,我们发现数仓增加了50%的可用弹性计算资源,数仓任务平均等待时长降低了50%。同时看到另外一个效果,不仅数仓有更多的资源用,在线CPU资源利用率从25%提升到40%,从全局资源利用率也提升非常多。

4. 面向节流
4.1 数据计存治理关键技术方案

4.2 数据计存治理案例


三. 数据治理的未来思考

首先,围绕整个大数据数仓治理,不管是在线、离线还是图数据,存储的都是数据,只是存储介质不一样,未来需要一体化的数据治理体系,统一解决成本和效率问题,这是共通的。
最后,还有一个比较重要的点,数据作为国家的生产要素,在《个保法》的要求下,要被使用、消费并发挥价值,过程中对数据的保护应该如何处理?这也是未来数据市场化场景下,我们要去探索的。





