暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

李冬峰:京东大数据安全与分布式权限体系的探索与实践

DataFunSummit 2022-01-13
3888


分享嘉宾:李冬峰 京东 大数据架构师

编辑整理:刘志强 恒安嘉新

出品平台:DataFunTalk


导读:京东具有超过6000多数据分析人员及100多万数据表,这些主体和资源间有数以亿万级的权限策略,如何实现这些权限策略的微秒级响应,并确保数据资源合规、高效访问,京东大数据架构师李冬峰老师将为我们分享《京东大数据安全与分布式权限体系的探索与实践》。

本次分享的内容主要包括两部分:

  • 京东大数据安全中心整体规划

  • 京东大数据分布式权限系统介绍

01
京东大数据安全中心整体规划

1. 整体规划

① 建设目标

京东大数据建设的总体目标是:合国家法律法规,符合公司对大数据安全的各项要求,满足数据保护的原则,实现数据全生命周期的安全管控与审计,促进数据在整个京东内部的流通。

② 建设内容

大数据安全中心的整体架构如下图所示:

首先基于国家和公司的要求,提炼出安全原则;基于这些安全原则定义出包括管理者、执行者和审计者的安全角色以及相应的安全制度;基于角色和制度定义出相应的安全能力和手段,包括数据分类分级(目前分为4级)、权限管理(库表读写等)、安全审计(主要针对L3、L4级数据)、风险合规(与安全部合作识别出的安全风险)以及依赖的安全基座等几方面。大数据安全中心整体规划基于安全原则和管理制度,针对不同分类分级的数据,依赖权限系统进行精细化的管理,并在事前、事中、事后对数据进行全生命周期管控。

安全原则:包括职责明确、安全合规、质量保障、数据最小化、最小授权、确保安全、可审计、责任不随数据转移。

安全管理制度:基于以上安全原则,定义出包括大数据安全管理者、执行者和审计者等安全角色,以及各层面相应的安全制度,包括国家大数据安全管理制度、京东大数据安全管理制度,以及大数据采集、存储、使用、共享、销毁安全管理等

数据分类分级:包括L1公开数据、L2敏感数据、L3机密数据、L4绝密数据,以及数据分类分级识别与管理,针对不同的级别有不同的管控策略。

权限管理:包括用户申请权限、授权与共享管控、数据权限有效期、库/表权限管控、读/写/执行控制、行/列控制、文件权限管控、UDF权限管控、数据权限回收。

安全审计:包括数据申请与审批审计、数据使用与共享审计、数据采集与存储审计、数据有效期与删除审计、L3/L4数据审计、个人信息审计。

风控合规:包括用户风控和数据风控两大部分,其中用户风控包括风险用户识别、虚拟用户识别、高危行为识别、越权操作识别、离职异动识别、职责转移识别;数据风控包括敏感数据识别、数据活跃度识别、数据泄露风险识别

安全基座:包括数据脱敏与加密、全域元数据统一、数据跨域共享与容灾、数据生命周期识别、数据质量监控、用户终端安全UI等技术。

2. 数据流转安全框架

数据流转安全框架是基于数据生命周期进行安全策略管控,通过数据采集、存储、处理、分发、删除定义不同步骤应具备的管控能力。

上图中绿色部分是数据流程,粉色是在该流程中建议的安全管控策略。以数据采集为例京东会接入物流、科技、零售等生产系统的数据来到大数据中台,落到数据仓库或数据集市中,进行必要的加工,输出业务价值,支撑业务发展。接入时首先要判断是否使用规范的数据源,采集时是否遵循了最小化原则,是否采了不该采的数据,接入过程中要对数据进行识别,属于哪个级别,不同级别要进行不同的处理,最后要监控接入过程中的数据质量。类似的,对于存储、处理、分发、删除也有相应的安全策略。

数据采集安全策略:包括数据源合规、最小化采集、数据分级分类、数据质量保障。

数据存储安全策略:包括存储隔离、存储架构安全、存储访问控制、数据归档安全。

数据处理安全策略:包括敏感数据脱敏与加密、最小化授权、数据分级管控、数据细粒度权限管控、审计风险。

数据分发安全策略:包括敏感数据脱敏与加密、最小化权限、数据合规监测、共享数据申请与审批管控、审计风险。

数据删除安全策略:包括数据生命周期管理、数据有效期/删除策略、冷僵数据/冷备数据策略、数据恢复策略、审计追踪。    

02
京东大数据分布式权限系统

1. 挑战与目标

① 业务挑战与目标

国家层面:国家对京东大数据有一些例如等保4级、PCI等安全认证的要求。

业务发展层面:京东大数据是一个统一的基座,需要支撑京东零售、科技、物流、保险等各业务挑战,确保满足不同业务形态的不同数据隔离要求,以及共享的管理要求。例如京东零售作为一个大的集市,零售之下有广告、搜推、营等销业务线,每条业务线下面有不同的开发团队,需要分配不同的三种使用的权限,数据资源有不同的数据隔离和数据共享要求,满足业务侧的多级别的精细化管理。

用户层面:面向6000多数据分析人员,在符合国家和业务层面要求下,如何最有效地获取数据、最小成本地支撑业务。要为用户提供数据申请、审批、授权、回收的一站式服务,在保证安全的前提下提升数据流转效率。

② 技术挑战与目标

第一,要满足京东“子集团/业务线/账号”三级隔离方案,并满足库、表、行、列、HDFS、UDF等多种权限控制,满足对数据的读、写、执行等权限的精细化管理,满足业务灵活多变的数据管控需求。以及跨集团、跨业务的安全审计。

第二,要满足6000多用户与100多万数据表的亿万级权限策略,满足多个集群高性能要求和跨越一致性要求。

第三,要满足兼容分布式系统Hadoop、hbase、kafka等组件的权限管控、并可持续发展和后续组件的融合。

京东采用自研权限管理系统,能够很好的支持Hive表等技术特点,并符合京东特色的权限和分级管理方式,在支持大并发方面具有良好的表现。

2. 核心模块

京东大数据分布式权限系统使用策略语言描述“主体与资源”的权限集合,并通过高性能的访问控制实现权限管控。

架构简图如下:

整个架构分为四个部分,主体包括用户、组、角色,对例如库表行列等的资源进行访问,主体和资源之间通过策略语言方式形成的策略模型,并通过高性能的访问控制进行权限校验。例如某人想在上午10:00-12:00对表进行访问,首先访问到控制器,控制器到权限模型进行权限记录查询,如果存在权限记录,则放行,数据会触达到资源,可以访问并将结果返回,反之,如果策略模型没有该权限记录,则阻止该访问行为。

① 主体

主体是面向用户提供最简单的ACL访问控制,解决用户如何快速的获取权限,而不需要关注底层分布式及跨集群技术。

用户、用户组、角色根据所需要的资源,直接进行数据申请。

  • 用户:京东员工的唯一身份标识,每个用户对权限进行申请。例如某人对资源直接进行申请,优点是对数据管理比较严格,但申请效率比较低,适用于京东采销的分析师,在大量调研的基础上,对表进行数据分析;

  • 用户组:由集市管理员定义好数据套餐,用户申请加入数据套餐,进而获得权限,是主流的方式。京东有以团队的模式存在的大量人员,例如数据模型开发和财务人员,对数据的需求几乎是一致的,通过用户组的数据套餐,进行快速全部数据、存储计算的权限,避免了每个用户对数据权限的频繁申请;

  • 角色:主要是管理的角色,包括数据套餐负责人、业务线数据负责人、集市数据负责人,主要是对相应的套餐、业务、集市进行权限审核,分级管理,进行各级权限审核。

通过这种用户模型,减少用户申请、使用数据的成本。

② 资源

资源就是库表、文件等资源,难点在于京东有大量的子集团和业务线等大量灵活多变的需求,因此,京东分为集市级、业务线、生产账号三个级别的数据隔离方案,满足组织灵活多变的数据隔离需求,实现不同集市/业务线、账号/角色/组、库表、权限的灵活控制。

采用BPAC的方式进行数据精细化管理,实现用户模型与资源模型的映射。例如下图中,将用户在数据套餐中的生产账号的权限,进行权限规则下的权限动作和资源访问,实现用户、用户组、角色对资源依据不同策略进行访问。

③ 权限策略

采用策略语言方式实现权限策略的表达,描述“权限对象、资源与授权动作”的数据集合,来实现用户模型和资源模型进行串联。

④ 访问控制

最后,将权限规则配置到访问控制器中,通过自研跨域、跨机房分布式权限访问控制系统,实现亿万条权限策略的微秒级相应。访问控制器的难点在于数据量比较大以及集群的跨机房高效和一致、以及微秒级权限校验。

⑤ 产品架构

最终基于主体、资源、策略模型、访问控制,形成不同主体通过一站式入口申请资源权限,通过用户管理、授权管理和权限管理,实现集群信息、资源信息管控和审计风控等功能,最终满足京东业务和技术的双重挑战。

以上就是对京东大数据安全与分布式权限体系的简要介绍,希望对大家在数据安全建设方面有所帮助。

今天的分享就到这里,谢谢大家。


在文末分享、点赞、在看,给个3连击呗~


分享嘉宾:


福利时刻



《大数据典藏版合集》电子书目录如上,感兴趣的小伙伴,欢迎识别二维码,添加小助手微信,回复『大数据典藏版合集』,即可下载。

关于我们:

DataFun:专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请近1000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章500+,百万+阅读,12万+精准粉丝。

🧐分享、点赞、在看,给个3连击呗!👇

文章转载自DataFunSummit,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论