暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
机器学习隐私保护研究综述.pdf
1042
30页
29次
2021-01-28
免费下载
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software,2020,31(7):21272156 [doi: 10.13328/j.cnki.jos.006052] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
机器学习隐私保护研究综述
谭作文
,
张连福
(江西财经大学 信息管理学院 计算机科学与技术系,江西 南昌 330013)
通讯作者: 张连福, E-mail: zlf_jx@163.com
: 机器学习已成为大数据、物联网和云计算等领域的核心技术.机器学习模型训练需要大量数据,这些数
据通常通过众包方式收集,其中含有大量隐私数据,包括个人身份信息(如电话号码、身份证号等)、敏感信息(如金
融财务、医疗健康等信息).如何低成本且高效地保护这些数据是一个重要的问题.介绍了机器学习及其隐私定义
和隐私威胁,重点对机器学习隐私保护主流技术的工作原理和突出特点进行了阐述,并分别按照差分隐私、同态加
密和安全多方计算等机制对机器学习隐私保护领域的研究成果进行了综述.在此基础上,对比分析了机器学习不同
隐私保护机制的主要优缺点.最后,对机器学习隐私保护的发展趋势进行展望,并提出该领域未来可能的研究方向.
关键词: 机器学习;隐私保护;差分隐私;同态加密;安全多方计算
中图法分类号: TP181
中文引用格式: 谭作文,张连.机器学习隐私保护研究综述.软件学报,2020,31(7):21272156. http://www.jos.org.cn/1000-
9825/6052.htm
英文引用格式: Tan ZW, Zhang LF. Survey on privacy preserving techniques for machine learning. Ruan Jian Xue Bao/Journal of
Software, 2020,31(7):21272156 (in Chinese). http://www.jos.org.cn/1000-9825/6052.htm
Survey on Privacy Preserving Techniques for Machine Learning
TAN Zuo-Wen, ZHANG Lian-Fu
(Department of Computer Science and Technology, School of Information Managemen, Jiangxi University of Finance and Economics,
Nanchang 330013, China)
Abstra ct : Machine learning has become a core technology in areas such as big data, Internet of Things, and cloud computing. Training
machine learning models requires a large amount of data, which is often collected by means of crowdsourcing and contains a large number
of private data including personally identifiable information (such as phone number, id number, etc.) and sensitive information (such as
financial data, health care, etc.). How to protect these data with low cost and high efficiency is an important issue. This paper first
introduces the concept of machine learning, explains various definitions of privacy in machine learning and demonstrates all kinds of
privacy threats encountered in machine learning, then continues to elaborate on the working principle and outstanding features of the
mainstream technology of machine learning privacy protection. According to differential privacy, homomorphic encryption, and secure
multi-party computing, the research achievements in the field of machine learning privacy protection are summarized respectively. On this
basis, the paper comparatively analyzes the main advantages and disadvantages of different mechanisms of privacy preserving for
machine learning. Finally, the developing trend of privacy preserving for machine learning is prospected, and the possible research
directions in this field are proposed.
Key words: machine learning; privacy-preserving; differential privacy; homomorphic encryption; secure multiparty computation
基金项目: 国家自然科学基金(61862028, 61702238); 江西省自然科学基金(20181BAB202016); 江西省教育厅科技项目(GJJ160430);
江西省教育厅青年科技项目(GJJ180288)
Foundation item: National Natural Science Foundation of China (61862028, 61702238); Natural Science Foundation of Jiangxi
Province, China (20181BAB202016); Science and Technology Project of Provincial Education Department of Jiangxi (GJJ160430);
Young Science and Technology Project of Provincial Education Department of Jiangxi (GJJ180288).
收稿时间: 2019-09-10; 修改时间: 2020-02-09, 2020-03-20; 采用时间: 2020-04-09; jos 在线出版时间: 2020-04-21
2128
Journal of Software 软件学报 Vol.31, No.7, July 2020
近年来,机器学习(machine learning,简称 ML)发展迅速,已成为图像处理、语音识别和网络空间安全等领域
的基石.另一方面,得益于计算机技术、存储技术和网络技术的发展,政府、医院、银行等各类机构及电子商务、
零售、供应链等各类平台的数据量呈指数级增长.不仅如此,物联网、社交媒体和智能手机等媒介每分钟也产
生大量数据.数据持有者可以将这些数据发送给云服务提供商(cloud service provider,简称 CSP),以识别出潜在
的数据模型.这些模型可能有助于支持决策,改进业务,为客户提供增值服务
[1]
、预测服务和推荐服务
[2]
.
在此背景下,许多 CSP 纷纷推出机器学习即服务(machine learning as a service,简称 MLaaS).这些 MLaaS
数据持有者提供基于机器学习的数据处理、模型训练、预测服务和部署等自动化解决方案,吸引机器学习实践
者在云平台部署应用程序,而无需建立自己的大规模基础设施和计算资.著名的 MLaaS 平台包括 Google
Prediction API
[3]
Amazon ML
[4]
Microsoft Azure ML
[5]
BigML
[6]
.典型的基于云平台的机器学习体系结构
如图 1 所示.这里的 CSP 可以是第三方 MLaaS 平台、合作伙伴公司甚至公司本身在场外或在某些独立设施中
运行的应用程序.数据持有者是政府、银行、医院、保险公司或电子商务网站等,他们可以选择在云平台中存
储、处理数据或使用云平台提供的服务.终端用户是使用部署在云平台中的服务的参与者,例如企业员工、医
生和诊所员工等.终端用户将预测请求上传给 CSP,CSP ML 模型的预测结果返回给终端用户.
Fig.1 Architecture and privacy threat model of machine learning based on cloud platform
1 基于云平台的机器学习体系结构及隐私威胁模型
尽管 MLaaS 提供了诱人的好处,但也存在严重的问题,即用户数据的安全和隐私会受到各种威胁,如图 1
.首先,在训练阶段,恶意 CSP 只要对训练算法进行相对较小的修改,就可生成高质量模型,并且满足标准 ML
度量(如准确性和可泛化性),或者获得对它的输入-输出访问权,最终从模型中提取出关于训练数据的详细
[7]
.即使恶意 CSP 不能直接访问数据集,也可从模型参数中提取关于训练数据的敏感信息
[8]
.其次,预测阶段隐
私泄露问题.目前已有部分研究开始关注预测数据隐私问题
[911]
.在模型预测服务中,户需要将预先训练好的
模型上传到 CSP.但模型泄漏会导致数据持有者利益的损失,甚至破坏原始数据.另外,即使只有黑盒访问权限的
恶意远程用户仍然可以利用精心设计的输入查询模型输出,从而获得有关训练数据的信息
[1217]
.机器学习中的
隐私泄露问题已成为云计算发展面临的一个重大挑战.
另一方面,隐私权作为一项基本人权,对个人和企业来说都极其重要,重视数据隐私和安全保护已成为世界
性的趋势.欧盟于 2018 5 25 日正式实施的《通用数据保护条例》(General Data Protection Regulation,简称
GDPR)
[18]
要求企业对用户数据的处理应建立在用户明确同意的基础之上,企业应赋予用户被遗忘权”,即用户
可以随时删除或撤回其个人数据.被称为美国最严隐私法案的《加利福尼亚消费者隐私法案》(California
Consumer Privacy Act,简称 CCPA)
[19]
,已于 2020 1 1 日正式生效.它旨在加强消费者隐私权和数据安全保
,违反该法案的企业将遭到严厉惩罚.我国在 2017 6 月起实施的《中华人民共和国网络安全法》
[20]
指出,
任何个人和组织不得窃取或者以其他非法方式获取个人信息,未经被收集者同意,不得向他人提供个人信息.
of 30
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜