
1982
Journal of Software 软件学报 Vol.29, No.7, July 2018
Key words: privacy preserving; local diff erential priv acy; centra lized diff erential priv acy
近年来,隐私问题成为普遍关注的热点问题.大数据时代,信息技术为人类社会带来便捷的同时,也产生了
数据安全与用户隐私的问题.为保证信息技术的长足发展,保护个人数据隐私成为政府和企业的当务之急.在隐
私保护问题上,欧盟走在了时代前沿.2016 年 4 月,欧盟通过了《一般数据法案》(general data protect ion regulat ion,
简称 GDPR)(https://en.wikipedia.org/wiki/Ge neral_Data_Protection_Regulation),规定了个人数据保护跨越国界,
同时明确了用户对个人信息的知情权和被遗忘权.我国于 2017 年 6 月 1 日起施行《中华人民共和国网络安全
法》和《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》
(http://www.spp.gov.cn/xwfbh/ wsfbt/2 01705/t 2017 0509 _19008 8.shtml),加强了个人信息保护,其中,对于提供公民
个人信息违法所得 5 000 元以上可入罪.
对隐私问题的重视促进了隐私保护技术的研究.就隐私保护技术而言,隐私保护程度和数据可用性是最重
要的衡量指标.为了平衡隐私保护程度和数据可用性,需要引入形式化定义对隐私进行量化,顺应这一发展趋
势,有研究者提出了差分隐私
[13]
技术.作为一种隐私保护模型,其严格定义了隐私保护的强度,即任意一条记录
的添加或删除,都不会影响最终的查询结果.同时,该模型定义了极为严格的攻击模型,其不关心攻击者具有多
少背景知识.相比于 k-匿名
[4]
、l-多样性
[5]
和 t-紧密性
[6]
等需要特殊攻击假设和背景知识的方法,差分隐私因其独
特的优势,成为当前学术界的研究热点.
传统的差分隐私技术将原始数据集中到一个数据中心,然后发布满足差分隐私的相关统计信息,我们称其
为中心化差分隐私(centralized differential privacy)技术.因此,中心化差分隐私对于敏感信息的保护始终基于一
个前提假设:可信的第三方数据收集者,即保证第三方数据收集者不会窃取或泄露用户的敏感信息.然而,在实
际应用中,即使第三方数据收集者宣称不会窃取和泄露用户的敏感信息,用户的隐私依旧得不到保障.2016 年,
社交网络的数据泄露事件层出不穷(http://datay uan.baijia.b aidu.com/articl e/715477): 美国社交网站 LinkedIn 近
1.7 亿个账户被黑客组织在黑市被公开销售;谷歌、雅虎和微软等企业超 2.7 亿电子邮箱信息被一名俄罗斯黑
客盗取并流入黑市;土耳其近 5 000 万公民个人信息被泄露,总统的个人信息被挂暗网平台;雅虎爆发互联网史
上最大数据泄露,超 5 亿用户账户信息被黑客盗取;美国国安局网站遭入侵,其中黑客工具和数据被泄露,国安局
网站因此瘫痪了近一昼夜.此类用户原始信息泄露事件近年来层见叠出,人们对个人信息的安全性十分担忧.
由此可知,在实际应用中想要找到一个真正可信的第三方数据收集平台十分困难,这极大地限制了中心化差
分隐私技术的应用.鉴于此,在不可信第三方数据收集者的场景下,本地化差分隐私(local differential privacy)
[7,8]
技
术应运而生,其在继承中心化差分隐私技术定量化定义隐私攻击的基础上,细化了对个人敏感信息的保护.具体
来说,其将数据的隐私化处理过程转移到每个用户上,使得用户能够单独地处理和保护个人敏感信息,即进行更
加彻底的隐私保护.目前,本地化差分技术在工业界已经得到运用:苹果公司将该技术应用在操作系统 iOS 10 上
以保护用户的设备数据(https://www.wired.com/2016/06/apples-differential-pri vacy-collecti ng-data /),谷歌公司同
样使用该技术从 Chrome 浏览器采集用户的行为统计数据
[9]
.
本地化差分隐私技术继承自中心化差分隐私技术,同时扩展出了新的特性,使该技术具备两大特点:(1) 充
分考虑任意攻击者的背景知识,并对隐私保护程度进行量化;(2) 本地化扰动数据,抵御来自不可信第三方数据
收集者的隐私攻击.下面我们通过两个具体应用场景来说明本地化差分隐私技术的上述两个特点的重要性.
(1) 众包数据采集.
众包(crowdsourcing)
[10]
是一种利用群体智慧求解问题的方式,众包技术极大地促进了信息技术的发展,其
中通过众包的方式进行数据采集是一种新的数据采集方式.由于移动设备功能的不断强大,数据收集者可以很
容易将数据采集的任务分配给不同用户.例如,美国 Gigwalk 公司组织用户通过智能设备采集不同商品的价格;
国内数据堂公司组织用户通过“众客堂”APP 进行图片、文本和语音的采集并标注以提供数据服务;高德地图公
司组织用户通过“道路寻宝”APP 采集道路周边信息等.然而,众包数据采集一般与个人行为信息相关,因此,当用
户参与众包数据采集时,不可避免地存在泄露个人敏感信息的风险.例如,上传商品价格时可能泄露个人的购物
评论