暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据脱敏技术分析

基础技术研究 2023-09-08
107


序言
随着数据安全法、个人信息保护法的落地,数据安全受到了越来越多的关注,而如何保护数据安全也成为了企业责任与义务。数据脱敏可以在不影响数据使用的前提下,保护敏感隐私数据,同时满足数据安全要求和业务对数据的使用需求。所以脱敏技术已经成为保护数据安全的重要方式之一。本文通过对数据脱敏技术做全面分析,为更好地实施数据脱敏技术提供指南。

















01
  背景

1. 多套数据安全政策法规出台

数据安全事关国家安全和数字经济发展,近年来各级政府及监管部门越来越强调对敏感数据的安全防护,相继出台了多部关于数据安全的法规。数据脱敏是数据安全体系中的重要一环,是落实合规要求的必要措施。

2. 数据使用需求和数据安全需求存在矛盾

为了满足业务需求,业务系统或开发测试需要模拟生产数据。但是在安全性上,直接使用真实数据的传统方式存在严重的安全隐患与合规性问题,是不建议的。业务的真实需求与安全需求同等重要,为了解决这二者之间的矛盾,数据脱敏应运而生。数据脱敏技术的作用就在于它可以在满足业务对数据使用需求的同时保护真实数据。

数据脱敏就是通过对原始数据进行处理,以形成不携带真实信息但属性仿真的假数据,供业务开发/测试使用,在满足业务需要的同时保证了数据安全性。


















02
  数据脱敏方式分类


数据脱敏分为静态脱敏和动态脱敏两种,各有特点和适用的场景。

1. 静态脱敏

静态数据脱敏(Static Data Masking):一般用于非生产环境,将生产环境的数据经过脱敏后在非生产环境使用,一般用于解决测试、开发库,需要生产库的数据量与数据间的关联,以排查问题或进行数据分析等。静态脱敏是单次处理批量数据。


2. 动态脱敏

动态数据脱敏(Dynamic Data Masking):一般用于生产环境,在访问敏感数据时进行即时脱敏,用来解决生产环境中不同用户对同一敏感数据读取时进行不同级别的脱敏问题。动态脱敏以高频处理实时数据。



















03
  数据脱敏常用算法


数据脱敏常用的算法有十余种,可以分为抑制、泛化、随机、扰乱四大类。四类算法适用于不同的应用场景,在“保真性”、“关联性”、“可逆性”、“可重复性”、“时效性”、“安全性”等六个不同维度上各有不同。

下面列举几类脱敏算法:

1. 泛化技术

泛化是指在保留原始数据局部特征的前提下使用一般值替代原始数据,泛化后的数据具有不可逆性。

2. 扰乱技术

扰乱是指通过加入噪声的方式对原始数据进行干扰,以实现对原始数据的扭曲、改变,扰乱后的数据仍保留着原始数据的分布特征。

3. 抑制和有损技术

抑制是指通过隐藏数据中部分信息的方式来对原始数据的值进行转换,又称为隐藏技术。有损是指通过损失部分数据的方式来保护整个敏感数据集,适用于数据集的全部数据汇总后才构成敏感信息的场景。



















04
  数据脱敏原则





















05
  数据脱敏技术发展趋势


1. 与各级规范标准的结合日益紧密

随着国家和各行业对于数据安全立法的持续深入,用户在使用个人信息时需要符合更多不同规范。数据脱敏在帮助企业减少敏感数据泄露风险的同时,还可以确保用户对于个人信息数据的使用合法合规。后续数据脱敏技术与各级实际规范相结合,形成能够直接帮助用户实现合规的数据脱敏工具将成为一大探索方向。

2. 智能化数据脱敏技术广泛应用

随着数据维度和种类不断增多,人工指定脱敏规则将会花费更多的时间,人工指定脱敏规则将逐渐难以为继。我们更希望脱敏系统能自动识别敏感数据并匹配推荐合适的脱敏算法。

随着机器学习技术的应用,集敏感数据自动化感知、脱敏规则自动匹配、脱敏处理自动完成等能力为一体的智能数据脱敏技术将成为新趋势。

3. 数据脱敏性能持续提升

我们的数据量与日俱增,数据实时性需求日益加剧。短时间内完成大量数据的脱敏,将能够有效提升企业即时实现数据价值的能力。因此高性能数据脱敏将成为脱敏技术发展的一大方向。


















06
  脱敏技术使用中的常见问题


1. 针对不同业务场景,该如何选择最合适的脱敏技术;

2. 如何全面定位敏感数据的分布,避免出现敏感数据的遗漏;
3. 数据变形和脱敏手段缺乏或过于单一,测试数据安全性难以保证;
4. 脱敏过程如何保持数据属性及数据间的关联性,确保脱敏结果符合业务需求;
5. 如何建立全方位的验证机制,避免漏脱及误脱的情况;
6. 怎样实现智能化的脱敏策略制定,满足各场景合规需求;
7. 怎样实现脱敏数据的流转追溯,实现数据外泄事件的监测预警;

8. 脱敏系统对国产化平台的支持能力不足,兼容性有待提升。


















07
  脱敏系统技术选择因素



1. 敏感数据发现及定位能力

发现及定位敏感数据,主要取决于三方面:一是依靠脱敏系统自身的数据源梳理能力,二是与分级分类系统联通,快速查到数据脱敏源头,三是调用用户自有的清单数据资产清单。

2. 脱敏策略及规则匹配能力

这是指脱敏系统是否能够根据数据特性自动判别敏感数据的影响程度、影响范围、影响对象,再结合不同场景下的数据使用需求,来匹配合适的数据脱敏策略。脱敏策略和规则自动匹配,加上人工审核环节,保障数据的保密性和可用性。

3. 丰富的数据源支持能力,满足复杂应用场景

数据脱敏平台的选择需要对多种数据源有统一脱敏能力,支持库和文件脱敏,满足复杂应用场景。


















08
  数据脱敏系统实施案例


1. 脱敏系统与其他系统联动

通过脱敏系统与其他安全系统的联动,打破孤立设备造成的信息孤岛,构筑综合数据安全防御体系。
(1)与数据水印联动:完成脱敏数据分发后的追溯;
(2)与数据安全交换联动:为数据提供在可信、安全环境下的数据交换;
(3)与数据库安全管控联动:实现脱敏数据使用过程中的身份可信、操作可控、行为可靠;
(4)与敏感数据流转监测联动:提供脱敏数据的流转追踪及监测预警;
(5)与数据分类分级联动:调用分类分级清单实现数据源的精准脱敏。

2. 智能化脱敏及审批

(1)为提高测试数据使用效率,以及自动化脱敏需求。搭建管控用一体化的国产化数据脱敏平台,打通‘生产-测试’环境,搭建一体化测试数据沙箱。

(2)优化审批流程,借助自动化工具和监测系统,实现审批-执行-监管一体化的数据脱敏安全方案。实现了测试数据的脱敏工作流审批,数据按需抽取一脱敏一分发,敏感数据安全监测。

(3)实现敏感数据动态脱敏和敏感数据删除监测等工作。




参考资料

[1]https://blog.csdn.net/itworld123/article/details/122976264

[2]https://zhuanlan.zhihu.com/p/519960919

[3]https://baijiahao.baidu.com/s?id=1747818552122441 450&wfr=spider&for=pc



基础技术研究室
微信号:jichujishuyanjiu




文章转载自基础技术研究,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论