暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

隐私计算之联邦三部曲

DataFunSummit 2021-10-25
829


分享嘉宾:孟丹博士 同盾科技

编辑整理:王雅洁 百融云创

出品平台:DataFunSummit


导读:人工智能时代,数据蕴含的巨大价值得到逐步释放的同时,对用户数据隐私和安全管理的日渐收紧已经成为必然趋势。隐私计算是指由两个或多个参与方来联合计算的一种技术和系统,各参与方在不泄露各自数据的前提下,通过协作来对各方数据进行联合机器学习和数据分析。隐私计算技术能够打通数据孤岛,释放数据价值。本次分享题目为隐私计算之联邦三部曲,主要是同盾近期在隐私计算领域的一些观点和进展。

本文会围绕以下内容展开:① 隐私计算背景介绍;② 联邦三部曲-FIRM体系的参考架构;③ 智邦平台关键技术-FIRM体系的工业级产品;④ 智邦平台应用案例。

01
隐私计算背景

首先和大家分享下隐私计算的行业背景。

1. 隐私计算行业概述

伴随着密码学技术和硬件技术的发展,加速了隐私计算的商业化落地。隐私计算的技术路径也处于高速演变和发展期,目前市场上常见的隐私计算技术路径主要为如下三个方向:

  • 联邦学习

  • 安全多方计算

  • 可信计算

此外,区块链也是隐私计算的重要补充,两者相辅相成,两者的融合应用也成为业界的共识。

随着大数据融合应用和隐私保护的双重需求驱动,隐私计算将会成为大数据产业发展过程中数据协作的一个基本解决方案,隐私计算的应用场景也将会从金融、政务、医疗等成熟领域向其他行业加速扩张。

2. 行业现状与痛点

随着大数据技术的快速发展,人们每天的活动产生了大量的数据,这些数据被众多的平台收集和使用,数据在空间和时间里面流动产生了价值。而在价值产生的过程中,需要对数据进行严格保护。但数据分布在不同的企业和机构,形成了左图所示的一个个数据“孤岛”。为了保护多方数据权益,消除行业数据孤岛现象,让数据相互之间联合协作,隐私计算应运而生。

目前隐私计算正处于大爆发的阶段,也意味着还存在很多挑战。在商业化落地过程中,随着隐私计算产品的增长,由于不同厂商技术方案的和平台化产品的差异,数据将由“孤岛”转向“数据群岛”的割裂局面。目前,市场中的开源框架主要聚焦在联邦算法层级的研发,并不能彻底解决群岛割裂的瓶颈。

02
联邦三部曲-FIRM体系的参考架构

1. FIRM体系理论基础

联邦学习作为隐私计算的重要分支,也会出现数据群岛现象。为了使各厂商开发的联邦学习系统能够互联互通,同盾提出了“开放联邦系统互联参考模型”,即FIRM(open Federated system Interconnection Reference Model)体系架构。

FIRM体系架构的设计理念是在数据、算力、模型等基础资源和应用层之间构建一个中间层,制定标准的协议规范,来满足各平台联邦学习系统的应用运行。FIRM体系架构将联邦系统互联互通协议自底向上分为四层:通信层、数据交换层、算法层、应用层。它将每一层的功能、定义和实现区分开来,使它具有更强的适应能力。

FIRM中每一层都建立在它的下层之上,向它的上一层提供一定的服务,而把如何实现这一服务的细节对上一层加以屏蔽。为此,需要针对每一层定义标准化的协议规范,并在协议中详细描述该层所提供的服务和动作,以保证提供有效的服务。

2. 联邦三部曲-协议、算法、应用

在FIRM理论体系的工业化落地过程中,同盾科技人工智能研究院逐步形成以协议、算法、应用共同组成的"联邦三部曲"方法论,即联邦协议、联邦算法和联邦应用,三者之间内部独立,又相互关联。

联邦协议包括通信层和数据交换层,是各参与方进行数据安全交换的基础。联邦协议的目标是定制一套标准的联邦通信协议,约定联邦过程中各参与方的数据交换顺序,以及数据交换前后采用的加解密方法。就像HTTP协议承载了我们今天看到的极度丰富的互联网应用一样,联邦协议也是建立联邦学习应用所必不可少的基础协议,有了这个协议才能使得联邦学习应用得以标准化,使得联邦学习过程中的数据安全、模型性能得到有效的保障。目前,同盾自主研发的标准化联邦交互协议FLEX协议也在github上开源。

联邦算法是基于联邦协议实现的多方联合训练和推理的计算过程,有了底层的联邦协议的支持,就可以构建对应联邦算法来解决实际的问题。这些算法通常都是比较经典的机器学习模型,例如逻辑回归、决策树等模型的联邦化版本。联邦算法在功能上,可以实现联邦计算、联邦共享、联邦学习、联邦预测及联邦推理。具体来说,联邦算法通过算子库提供丰富的算子,支撑在信息层、模型层、认知层和知识层这四个层次的联邦。

联邦应用面向业务场景,对应着FIRM体系中的应用层,封装了满足业务场景所需的联邦算子模块,并对联邦算子模块进行串联,形成完整的业务流,服务于联邦业务各场景。联邦应用包括了专家经验、场景模版等模块,并支持开发者模式,还可以为客户需求专门定制功能。联邦应用能够针对某个垂直领域定制化设计解决方案,让缺少算法、资源储备的行业或公司快速的接入联邦学习场景。

3. 联邦应用&联邦算法

算法层的算子库提供了数据建模各模块所需的算法集合,可以根据业务场景来进行自由的选取调用。如左图所示,算法库包括建模全流程(数据上传、数据融合、特征工程、模型训练、模型部署)所需要的各个算子模块。

应用层可以基于业务经验,在营销、风控等多个领域制定标准化的流程模板,保证模型效果的同时,可以实现快速交付落地。算子库的算子也可以通过像积木一样进行拼装串联,快速灵活的适应新的应用场景。

下面以右图中评分卡调用流程为例,简单分析算法层和应用层是如何协同工作的。首先,可以根据业务经验从算法层的算子库中快速抽取评分卡业务所需的算子(如:WOE、IV、分箱、LR等),将这些算子模块串联封装到应用层中,来完成全流程的自动化,快速搭建评分卡建模流程。

4. 联邦协议

联邦协议包含两个层次:应用协议、公共组件。

应用协议:这一层协议是面向联邦算法的,为联邦算法提供多方数据交换的应用支撑。协议中会约定多方间数据交换的顺序和采用的具体密码算法。联邦过程中采用的通信协议也会被封装在这里。

公共组件:是上层应用协议所依赖的基础密码算法和安全协议,比如同态加密、秘密分享等。

在实际应用中,协议层只需定义与算法步骤相关的接口,即参数的输入和输出,联邦算法只需在数据安全交换时调用协议,提供协议所必须的参数,并接收协议输出的结果。使用者无需关心协议内部是如何进行加解密通信,更不需要关心其他参与方的具体情况,只需要按照协议约定就可以非常灵活的加入联邦当中,提供数据或使用联邦服务。

03
智邦平台关键技术-FIRM体系的工业级产品

智邦平台是同盾联邦三部曲的商业化平台产品,设计理念主要基于FIRM体系。接下来我们主要通过分析联邦学习与传统建模的差异,以及联邦学习技术演进的主流方向,来分享一下同盾在解决联邦学习问题的一些进展。

1. 联邦学习与传统建模差异

如图所示,我们将传统建模方式和联邦学习方式进行对比。

传统的联合建模方式主要是由建模参与方进行明文数据交换后联合建模,或者由可信第三方分别获取建模参与方数据进行联合建模,传统建模方式的弊病如下:

  • 建模成本高

  • 安全性差,容易产生数据泄露和模型泄露

  • 第三方可获得原始数据和模型,难以管控

联邦学习的建模方式采用隐私保护技术和安全加密技术,在传输、计算、应用的各个维度都可以保证数据安全。联邦学习的优势如下:

  • 建模成本低

  • 安全性高,只需要各参与方在本地进行数据读取,联邦学习的节点或平台在建模过程中只需要去交换加密的中间参数

  • 联邦学习可以选择有第三方或无第三方两种模式,并且模型/数据也必须进行授权才能调用

联邦学习需要用到相对复杂的密码学运算,其计算和通信开销会超过实际应用能承受的范围,导致无法实现在大规模数据上的应用。提升其计算和通信效率是当下技术演进的主流方向。

2. 关键技术1-通信框架Ionic Bond

为了保证隐私计算的通信效率,有效解决联邦通信与学习效率瓶颈的因素(网络和通信协议、密文的数据规模、密文的处理速度、加密解密的速度),同盾自主研发了离子键 Ionic Bond轻量级高速的联邦通信框架。该框架在保证信道安全可靠前提下,降低数据传输延迟,有效解决隐私计算的通信效率瓶颈。支持GB级别的数据传输,既能保证服务的快速,又能保持服务的稳定和弹性。并且,可以适配丰富的联邦学习通讯模式,针对性不同模式进行优化,为算法提供足够支撑。经过实验验证,采用Ionic Bond相较于开源组件的效率上可提升2-6倍,实现了提升联邦算法通信效率安全与性能的平衡双赢。

3. 关键技术2-HeteroDeepFM方案

联邦学习在深度学习上的探索也成为另外一个研究焦点,联邦学习虽然在机器学习领域(如:逻辑回归模型、树模型、FM模型等)的应用已经相当成熟,但是在深度学习领域(如:点击率预估模型、双塔模型、自然语言处理等)还处在探索阶段。

DeepFM算法有效结合了因子分解机和神经网络在特征学习的优点,可以同时对低阶特征和高阶特征进行提取,该算法广泛应用在点击率预估的推荐系统中。为了设计安全无损的DeepFM,同盾自主研发了HeteroDeepFM方案。如图所示HeteroDeepFM方案可以通过调用FLEX中的协议,来传输各参与方必须进行的数据交换,对于非交互类的运算(如:特征编码、特征Embedding等)由参与方在本地运行。

04
智邦平台应用案例

目前,智邦平台已经在金融、保险、政务等多个领域进行了实际业务的落地,并取得了显著的效果。接下来主要选取不同应用场景进行案例分享。

1. 营销案例

业务目标:基于保险公司和银行之间的紧密业务关系,帮助某银行从海量客群中挖掘潜在保险用户,有效提升保险营销转化率。

解决方案:由于银行代销保险的品种较多,基本涵盖保险全类目。我们需要利用银行数据去精准筛选人群标签作为种子标签,在保证数据安全的前提下,通过算法评估模型将银行数据和保险数据进行特征互为补充,进而挖掘潜在相似人群,构建全息用户画像。然后针对各场景客群进行联邦建模,为银行保险代理人提供精准营销人群标签,营销过程中成功被转化的用户可作为优质客户加入种子标签中,进一步迭代和完善全息用户画像。

结果验证:在给定的数据集上,经验证,相对于保险单方模型,联邦学习模型的KS值提升了5%以上。在实际营销中,相对于保险单方模型,联邦学习模型同渠道投放的营销转化率提升了3倍以上。

2. 风控案例

业务目标:在保证数据安全的前提下,引入外部数据,提高消金公司个人信贷审核信用评估的准确率,降低逾期风险。

解决方案:基于智邦平台提供的评分卡模型,采用跨特征的联邦方式训练了符合消金公司任务需求的信用评估模型,提升了信用信用评估模型的预测准确率。通过数据聚合对齐用户的20多万条样本,并且将特征由30多维补充到120多维。

结果验证:经验证,相对于银行单方模型,联邦学习模型的KS值提升了30%以上。部署上线后,该联邦模型月调用量约50万次。

3. 政务案例

业务目标:在安全合规的基础上,解决地方大数据因数据孤岛而对地方企业缺乏细粒度的了解,实现安全数据统计、分析,输出实时可见的监测业务看板。基于结果给政务输出可展示、可解读、可应用的数据解决方案,推进城市数字化转型。

解决方案:搭建智邦平台,基于智邦平台的隐私计算技术,安全联合分析各委办单位的企业数据。打通本地互联网平台数据,丰富企业分析维度。

结果验证:经验证,试点市在政务处理效率上普遍提升2%以上。

05
总结展望

相比成熟的理论体系和丰富的技术实现框架,隐私计算在实际生产的应用还处于初始发展状态。但同盾相信,随着相关产品和产业标准不断发展、完善,隐私计算在保护用户数据隐私、满足合法合规的基础上进行机器学习,提供强有力的技术支持。希望我们一起携手努力,围绕数字经济与人工智能技术,共同创造AI无限想象的商业化未来生态。

06
问答环节

问:同盾联邦学习框架是否支持国密标准?

答:同盾联邦学习框架支持SM2、SM3、SM4国密标准。

问:同盾用到了公共组件,意味着加密方案可以自由选择,不同阶段可以使用不同加密方案,那么隐私求交和联邦交互用到的加密组件分别是什么?

答:隐私求交阶段用到的公共组件是和隐私协议相关的,如果针对传统的PSI协议,可以采用AES加密组件。如果针对椭圆曲线技术,可以采用ECDH加密组件。

联邦交互阶段用到的公共组件是和交互中的密码学技术有关,比如同态加密LR算法,可以采用半同台加密组件,比如秘密分享LR算法,可以采用秘密分享加密组件。

问:FLEX协议支持的加解密算法不是可逆的,是否有隐私安全的问题?

答:在公共组件中,比如AES、SM4,主要应用在密钥交换协议中,使用时需要参与方协商一个协议需要的初始化种子,无法进行可逆操作,可以保证组件的安全性。

问:联邦学习为什么更容易支持机器学习算法,而支持深度学习算法会有难度?

答:机器学习主要偏向于简单的线性/非线性运算,目标函数更多是凸函数/近似凸函数,凸函数的求解是可以进行拆解、近似和逼近的。但是深度学习有大量非线性操作和运算,比如ReLu、NLP中的Transformer等,深度学习在进行联邦化改造时涉及的改造量非常大,尤其是纵向联邦学习,对深度神经网络进行拆解和联邦化改造更加复杂。

问:Ionic Bond是如何提升通信效率的,是否对广域网和局域网都有效,如何达到比较高的通信传输效率?

答:Ionic Bond通信框架是通过k8s支持弹性化的扩容,对广域网和局域网都同步支持,也支持点对点、广播式、星型网络和环形网络。具体来说,Ionic Bond的底层设计基于gRPC,上层设计专门针对联邦通信中的效率瓶颈做了适应性改造。

问:同盾是否围绕联邦学习激励机制有进一步的研究?

答:同盾对各参与方的数据在平台化的产品上做了贡献评估,基本原理基于Shapley理论。通过贡献度评估可以对参与方数据进行数据打分,包括数据质量和数据建模贡献度,进而形成数据交易市场,方便参与方可以自主选择数据质量较好的数据合作方进行联邦建模。

问:同盾是否支持关联算法,如果支持请问怎么进行host和guest的交互?

答:我们的算子库是非常丰富的,由于版面的原因没有展示完整。常见的关联算法,比如KNN、关联挖掘等都可以支持。关于具体的host和guest怎么传输,各算法的传输方式都不一样。

问:在消费信贷案例中,模型推理是否实时?是否有很大时延?

答:该模型是实际部署上线的,它的请求是实时的。kps主要受制于当前网络状态,我们在推理时有对模型当中的参数进行优化压缩,通过减少通信所需的数据量,提高在线实时预测的效率。

今天的分享就到这里,谢谢大家。

在文末分享、点赞、在看,给个3连击呗~


分享嘉宾:

活动推荐:

社群推荐:

欢迎加入 DataFunTalk 联邦学习 交流群,跟同行零距离交流。识别二维码,添加小助手微信,入群。

关于我们:

DataFun:专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请近1000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章500+,百万+阅读,12万+精准粉丝。

🧐分享、点赞、在看,给个3连击呗!👇

点击阅读原文解锁!
文章转载自DataFunSummit,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论