今天的介绍会围绕下面五点展开:
开放金融生态发展下的机遇与挑战
隐私计算发展概况
数据分析全流程中隐私计算技术融合应用
隐私计算技术在金融领域的应用案例
隐私计算技术未来发展展望
01
首先和大家分享下当前开放金融的现状。
1. 开放金融生态发展背景

其实从上世纪的七八十年代开始,人们已经开始了对隐私计算的探索。隐私计算之所以能够成为目前数据流通领域内最受关注的技术热点,主要还是因为数字经济时代数据被视作了一个关键的生产要素,它必须通过跨领域、跨行业、跨地域的机构间的流通释放其要素价值。但是,目前我国数据要素市场化配置尚处于起步阶段,规模小、成长慢、制约多,机构间的数据流通仍存在诸多的阻碍。数据市场化配置的路径之一是数据的资源化,然后数据资源经过确权深化为数据资产。当数据资产参与到相应的产业中后会形成商业的数据要素,数据要素通过流通才能形成一个流通市场、一个数据产业链。我们需要从它的模式、生态、机制等几方面去构建一个完整的数据要素市场。
近年来随着我国数据立法进程的不断加快,尤其强调数据应用过程中的数据安全。金融机构原来通过向外部采购大量的数据用于如营销、风控、反洗钱等环节,这种简单粗暴的数据共享方式已经不太可行了。
2. 开放金融生态发展的机遇与挑战

从2018年开始,各家机构陆续提出了开放银行的建设策略。在把金融服务融入到外部生态的过程中,我们发现仅仅立足于本机构的自身数据是远远不够的,迫切地需要引入一些更丰富、更全面的外部数据,形成一个更好的融合,进一步丰富画像数据。
在这过程中有三个重要的转变。
从客户到用户,客户范围越来越广
从银行服务到生态场景,银行纷纷开展非银业务
从数据引入到价值交换,生态环境越来越复杂
当我们的生态环境变得越来越复杂之后,随着服务对象、内容、参与方的扩大,必然会面临隐私安全隐患延展、隐私安全挑战叠加、隐私安全风险迁移等问题,这也对金融行业提出了更高的要求。
02
隐私计算发展概况
1. 什么是隐私计算

隐私计算是一个为了数据实现多方安全的一种可用不可见而必备的“工具魔盒”。
实现隐私计算的技术非常多,如可信计算、联邦学习、多方安全计算,但目前还没有一种能够满足所有需求的技术,我们应该根据应用场景去选择合适的技术。
如何证明隐私计算技术的安全可信?比如多方安全计算虽然是密码学可证明的,但在实践过程中还是会存在很多的风险点。隐私计算还没有被大规模地应用,更多还是以POC的尝试或在限定范围内的应用为主,并且参与方相对来说是在一个可控的范围内的。我们希望能够通过这些技术把隐私计算的黑盒逐步打开,实现可信可计量。
隐私计算的核心在哪里?隐私计算是以密码学为支撑,混淆电路、秘密分享、不经意传输等作为底层密码学技术,同态加密、零知识证明、差分隐私等作为辅助技术的技术体系。
2. 隐私计算相关技术的主要对比

每个技术都各有其特点,都无法解决所有问题:
可信执行环境的性能强、通用性和安全性也都比较高,但是它需要一个可信方。比如你用英特尔SGS的技术的话,它有一个信任根,是需要相信硬件厂商的保护能力的。因为它本身就是用硬件隔离的方式去实现安全性的。
多方安全计算的性能相对偏低,但随着逐步的优化会有一定的提升。它是基于密码学原理实现通用计算能力的,具备一定的通用性。基本上主流的算法算子封装过后,上面的逻辑都可以用它来实现。它的安全性应该属于中到高,不需要一个可信的第三方。在姚院士提出来这个理论后,一直在不断迭代,是经受了一定考验的。
联邦学习是现阶段金融行业应用比较多的一项隐私计算技术。它的性能相对TEE(可信执行环境)略低,但比MPC(多方安全计算)又好一些。它的通用性相对中等,一些主流通用模型都可以做。关于安全性前面提到了它的梯度保护以及相关一些要求。可信方的话,拿FATE举例子,基于它不同的版本实现技术也不同,支持有可信第三方和无可信第三方的模式。市面上很多隐私计算的厂商,基于FATE框架进行了大量的封装和提升,通过MPC和同态加密等技术的融合进一步提升联邦学习的安全性。
同态加密的安全性比较高,但性能是一直受到诟病的,已经有一些专业的研究机构和厂商正在借助一些硬件的方案去提升同态加密的效能。因为如 果说一个密码算子能够从基础层就通过同态加密实现良好的封装,对上层来说实现就会比较透明。但这样的计算开销和通信开销都会非常的大,所以同态加密目前也仅在一些指定的场景上得到应用。
差分隐私在性能方面是比较好的,通用性上要看所选的场景。在安全性上,因为随着混淆记录的数据,提升混淆数据量可以进一步提升数据应用安全性,但是这样会造成算法的噪声,这个噪声又会影响模型的准确度。
零知识证明和以上几个不在一个纬度上。它的安全性级别是很高的,它更多的是和其他技术结合起来,是各类协议的一个基础。
03
数据分析全流程中隐私计算技术融合应用

在数据分析的全过程中,不同的技术在限定的前提条件下是可以更好地去发挥它的作用的。接下来我们会从数据分析的需求探索、数据处理、联合建模/联合计算、模型评估/优化,包括隐私计算和区块链的结合去展开。
1. 需求探索

需求探索的两方面:
对业务需求的理解。确认是否需要外部数据,明确本机构的数据是否足够丰富以及外部是否有合适的数据来做相应的分析。比如电信诈骗,与公安和运营商的联动已经形成共识了。
对数据的理解。当我们用传统的脱敏后的数据去撞库的方式,拿了几万条数据去和公安对接的时候,只对接了几条。因为公安的数据是上亿级的,一般银行是千万级的,所以样本的筛选很重要。另外在做三要素匹配的时候,我们只能用一些少量明文或者哈希的方式去做比对,因为要考虑到数据的安全性。从这个角度来说,如果没有隐私技术的支撑,我们可能很难去做数据的有效探索。理论上说,如果我们把所有敏感的数据基于密文方式去做计算,就可以有效提升数据应用的安全性。这就是同态加密的一种思路。但是把全量数据去做同态加密,然后再做PSI ,这是一件非常低效能高成本的事。我们更多的是用多方安全计算的方式去对各类算法数据做对齐,但它也有个前提就是双方之间都要部署 MPC 的节点。那这个时候整个的部署工作就会比较重。用哪一家的 MPC 是大家现在所关注的一个互联互通的问题。比如某几家运营商,可能用了自己的解决方案。例如FATE,或者自己的 MPC 平台。每家商业银行可能也有自己的考虑,那最终用哪一个方案,可能会存在着一个比较长的磨合、协商的过程。
实际我们也发现了,在不同的数据合作方之间其实有多种模式的。
两者之间是不一定是对等的,比如中国移动,它拥有海量数据。一家小机构去和它做对齐,可能仅仅是它中间很小的一部分数据。
像浦发和太保两者基本上是对等的,那我们可以通过部署节点的方式来做对样的访问。
当我们浦发银行在去给一些中小机构去提供服务的时候,我们又变成大体量的,他们是小体量的。那我们怎么给中小机构提供快速的服务?我们觉得TEE可能也是一种方式。
TEE你可以理解为它是一个硬件的盒子。如果对方把他原有的数据加密过后,放到TEE盒子里面去做密文的匹配,然后快速地得到验证结果。并且TEE本身调用的这些函数,如果用SGX的方式去做,通过调用它的enclave的方式,是可以预先确定好它中间的这个调用方法和方式的,整个数据风险是可控的。然后可以在一个黑盒里面去做明文计算,它的效率很高。
但是可能大家也会问一个问题,就是我把数据上传给你,虽然我加密给你的,我怎么能保证你一定在TEE盒子里去解密的。我会在后面的案例中去讲如何将区块链和TEE进行结合。一方面保证计算效率的提升,另一方面又可以轻量化的去实现一些数据对齐和初步探索的工作。
2. 数据处理

数据处理是一个很重要的环节。数据处理主要是把各个数据供应商的数据汇聚在一起,进行一些预处理工作,然后去实现包括字段、标签等对齐和维度的统一,以及数据的预分析。在这种情况下,隐私求交(PSI)是应用最广泛的。从隐私求交的角度来讲,它也是有很多的这种实现方式的。
基于传统的朴素哈希的方式去做抽调。双方对于数据的敏感要求度并没有那么高,只要约定好一个哈希函数,然后做原始数据的哈希,再做一个相应的匹配。通过用数据哈希来替代原文来避免原始数据的泄露。现在随着各方算力的提升,已经出现像王小云院士破解MD5这种案例,用哈希的方式去做隐私求交的安全级别是比较低的。可能比较适合在一些联盟内、集团内这种可控的范围内去做,因为各方之间存在一定的互信基础,哈希方式的实施成本会比较低。
基于混淆电路的隐私求交,就是将计算的电路数据分解成产生阶段和求值的阶段。每一方都负责一个阶段,然后在每一个阶段中,这个电路本身都是被加密处理的,任何一方都不能够从其中获得它的信息,他们可以通过电路计算获取最后的结果。现在也有小范围的应用。
基于全同态加密的隐私求交,其实它只是基于密文而非原文的计算,去避免隐私数据的泄露。通用的思路就是数据比较少的一方把它的数据进行加密传给另一方,然后另一方它基于全同态的加密库,把双方数据进行一个求交并且将计算结果返回给另一方去解密,获得相应的结果。这是全同态加密的一个应用场景。
基于不经意传输的隐私求交方案,现在应该说也是用的比较多的。就是每次发送方会发送多条消息,接收方只能获得自己想要的一条信息。然后协议使得这个接收方他除了选取的这种内容以外,他无法获取剩余的数据。因而发送方是无法知道备选的内容的。然后通过不经意传输,参与双方都不能够获取到对方的任何数据信息。但是结果方是可以获取到这个交集的数据的。
在隐私求交的方案上,也是有类似像基于密码学,基于TEE的解决方案,这里就不再赘述了。其实原理是一样的,要做这种密码学的方式其实两边都是要做节点的。基于TEE的方式,可以依托一方去做相应的这种数据快速对齐。
3. 联合建模/联合计算

在联合建模阶段联邦学习是用的最多的。联邦学习包括横向联邦、纵向联邦以及联邦迁移。纵向联邦更适合跨行业、跨机构,用户重叠度比较高但是数据维度差异比较大。我们和电信、公安合作用的比较多的是纵向联邦。同业之间在一些比如联合营销、反诈等重复维度比较多的情况下,会用到一些横向联邦。同样会有基于密码学类和硬件类的两种解决方案。
密码学类的,可以去用一些差分隐私的方式,通过微弱噪声的方式去降低反推的概率。也可以通过秘密分享辅助第三方产生随机数的方式实现联邦的中间的梯度保护。这是联邦学习一直被诟病的,但现在大家都认识到这个安全性的重要了。因为在联邦学习这个领域里开源的FATE应该是用的最多的。之前关于RIAC同态加密算法问题出来后,可能对FATE产生一定冲击,但实际上大家都在想不同的方案去做提升完善。
刚才讲到把梯度通过差分隐私、秘密方式、同态加密等方式去做保护,还有结合硬件计算提速,以及硬件保护的方式把联邦学习和TEE结合,其实都是一些相应的解决方案。
在联合计算这个领域,MPC会用的多一些。基于MPC去封装相应的基础算子和统计算子,以及进行一些灵活的组建,然后可以做一些相应的拆分能够去支撑我上传的一些计算。
在这个过程中,还有一个比较典型的场景,就是匿踪查询。匿踪查询就是要实现明文数据的不可见,而且互相又无法获取对方的一种查询目标。比如在银行和保险公司之间,进行客户的数据查询与交互,查询过程中需要避免让数据源方得知查询方的查询目标,且能顺利返回查询结果给查询方。
用一个简单的流程讲:
(1)发送者有两条数据,m1和m2,发送者生成两对不同的公私钥,并公开两个公钥,称这两个公钥分别为公钥1和公钥2。
(2)假设接收人希望知道m1,但不希望发送人知道他想要的是m1。接收人生成一个随机数k,再用公钥1对k进行加密,传给发送者。
(3)发送者用他的两个私钥对这个加密后的k进行解密,用私钥1解密得到k1,用私钥2解密得到k2。发送人把m1和k1、m2和k2分别进行异或,把两个异或值传给接收人。
(4)接收人只能算出m1而无法推测出m2,同时发送人也不知道他能算出哪一个。
这样就形成了一个保证不泄漏查询ID的安全查询方案,这是一个比较简单的交互流程,主要是用于匿踪查询的场景。
4. 模型评估/优化

在模型评估和优化的阶段,也会综合运用多项技术。比如用多发性计算,本身就是从密码学的算子上就做到了数据更安全、更高效的改进。用可信执行计算的话,就是由硬件的环境去保证文,与在明文下的人工智能模型上面去做优化评估差别并不是特别大。
联邦学习在这个方面其实是要做很多事情,包括对训练参数进行调试,对部署方案进行相应的优化。调试包括对本地客户客户端的一些单独调参,每轮选择的客户端数量,更新的压缩算法配置,以及每轮执行的本地的算法次数。从部署优化角度来看,需要考虑一些损失、交互量以及相应参与的一些设备数,以及去平衡模型的复杂度和资源配置。
5. 区块链

为什么现在区块链和隐私计算会有个比较紧密的一个结合?因为金融行业是一个强监管的机构,所以我们面向客户去提供服务的时候,当客户对我们的计算结果提出质疑的时候,不可能跟客户说这是一个黑盒,我们看不到原始数据,所以不能够提供相应可解释的服务。
所以我们会借助区块链去做一些计算结果的存证,包括各方之间的参与,各方之间的调度,然后去确保整个隐私计算的流程是通过我们确认设计的方式去做相应串接的。这是很关键的一个点。同时我们把这些数据记录下来过后,也可以支撑各方之间激励体系的建设,用于未来各方之间分润等场景。
前面我们都是从技术、算法、密码学角度去谈,但大家还有一个很关键的诉求就是我为什么要把数据共享出来,以及共享出来数据库你得到了什么我得到了什么,怎么样才能够形成一个共赢的模式。借助区块链的存证,我们可以更好地去实现包括数据的定价、数据的计费,建立一个更好的隐私计算生态。
如果多方之间能够形成这样的共识,就可以实现更公平的隐私计算。反过来讲,隐私计算对于区块链也是一个很强的加持。区块链从它原有的公链角度,各种信息都是透明的,到现在它其实中间也有一些隐私保护的需求。这方面两者是相辅相成的。

上图是对以上介绍的一些总结。这里只是一些推荐和较优适用方案,还是需要根据具体场景的数据量,场景设计,以及对参与各方之间的安全程度、可信程度以及诚实程度选择不同的方法,所以需要把这些能力综合起来去运用。
04
隐私计算技术在金融领域的应用案例

现在大家都在构建隐私保护的底座。
在这个上面包括了多项技术,比较理想的情况是,把这些复杂的密码学的东西都封装在底层。对上层来说,这些数据就可以像使用明文数据一样去运用它。
面向上层的数据要素流通,有多种层次上的设计,包括身份确权、流通机制,以及未来在数据资本运作方式上的实现。
1. 用户资产等级视图

原来我们更多的是以本机构内部的客户数据为中心,但其实这个客户在各个机构都有一些相应的数据。比如代发工资后,你可能会把资金放在股市、基金、理财等地方。当你需要资产证明的时候,如果跨机构的用户资产等级视图的话,就不用将资金挪到一个地方。这样就可以真正的以客户为中心去提供服务。彼此机构之间贡献的数据要引流,要有相应的激励机制。所以其实我们上层是基于MPC能力去实现跨机构的数据资产计算。同时我们底层是和区块链去做结合,然后去明确各方的数据价值的贡献。
2. 联合营销——金融机构间矩阵评分

多方之间依托于不管是联邦学习还是MPC,如何去做相应的数据调度,从前面的抽样、调度、建模、计算到后面得出结果。这些过程,我们现在也都是按照这个既有的方式,大家都在尝试。同时我们会把所有的中间一些调度以及非敏感的一些信息,以关键的任务信息进行上链存证。这样保证整个的联合营销的场景设计是按照我们约定的流程去执行的。同时,我们所有参与方之间都可以通过区块链上的这个存证信息去调阅,去确保各方之间的这个信息调用是属实的。
3. 联合风控——银行与政务机构间的信贷风控

联合风控是隐私计算在金融领域的一个重要应用场景。一般而言,用户在本机构的金融业务数据难以满足金融风控的需求,但由于机构间数据分散,数据保护等原因,金融机构之间、金融机构与其他行业机构之间的数据壁垒较高,“数据孤岛”现象严重,提升了金融机构的风险便是难度,难以降低融资成本。
通过隐私计算技术能够链接工商、税务、社保、电力等不同部门、不同地域的教务数据,结合银行金融服务资源,提升中小微企业、个人用户在贷前、贷中、贷后的信用风骨、风险议价、经营能力预判的准确性,扩大金童服务范围和质量,支持实体经济发展。
4. 合同对比——基于TEE的SaaS化服务安全提升

我们之前在 AI 方向做了很多类似通过 OCR、NLP 去做合同的比对。很多机构、供应商都提供了这样的服务能力。
但是我们近期发现一种情况,大家都知道商业合同是一个很敏感的信息,我要用你的SAAS化服务,把合同上传给你的。那我怎么能确保你不去窃取,或者你不去了解我中间的商用的敏感信息呢?但如果我不传给你,又怎么去运用它呢?所以我们结合了安全可信容器的能力,让客户在端侧就把他的数据进行加密了。加密好后,他用密文数据上传到我们的这个SAAS的服务网关上,然后我传到我的隐私计算的平台里面来。它中间有一部分是用这种可信的安全容器在里面去把这个数据解成明文,然后再调用相应的容器去做 OCR 和 NLP 的处理。
最后我再把结果形成明文,然后再用它的这个盒子的公钥去做加密。加密完过后,我再通过这个网关再返回到终端。最后再到终端去做相应的解密。整个过程只有端侧,以及在可信硬件的盒子里面是解密的,其他环境都是密文的。这个环节就是说我如何去保证我的这个数据只在这个安全盒子里面去做相应的处理。其实我们就是每个环节上面都会去做区块链,去做融合,然后就保证我的整个链路是可追踪可诉的。
这样在一些大机构去提供这种相应的SAAS化服务的时候,这样用户才更可信,才能更能接受。所以我们也会把它和我们的可信云平台就是和可信计算的SaaS 服务就分几层去做相应一个整合。提供这个可行计算的PaaS层以及可信计算的SaaS层。这个其实和可能和前面的各位专家分享的场景可能又有点不太一样。这是一种以我为主快速提供服务的能力。同时,我又要打消我的终端用户的安全顾虑。
05
隐私计算技术未来发展展望

隐私计算技术必然是多技术路径并行。每个技术都有它的局限性,但是我们的需求是多样化的。一个业务分析流程的全过程是需要各种技术去做组合的,不同的技术适配又有相应的一些需求。比如TEE,它上面有SGX技术的支撑,也有ARM架构的支撑。它其实是不同的技术架构对需求适配有不同的要求。
算法优化和硬件加速将成为隐私计算可用性提升的重要方向。随着隐私计算逐渐成为热点,我们投入了更多的资源去提升它的安全、性能以及和硬件的适配,也用到了一些硬件加速的能力,能够支撑我们去做更大规模化的应用。
标准体系制定有望助力隐私计算应用落地。现在人行、工信部等权威机构都在牵头制定一些测试标准、应用标准等,只有大家用统一的技术语言去对话,才能够进一步的保证隐私计算产品的安全性。
互联互通壁垒或使数据“孤岛”变“群岛”。我们都在说隐私计算打破了数据“孤岛”,那么它又会不会形成新的数据“群岛”或者技术“孤岛”呢?不同的技术之间有不同的壁垒。所以现在大家都在探索互联互通的一些标准,以及从它的架构和解决方案上去做一些尝试。
国产化基于数据安全和技术自主可控的需求。现在我们非常关注国产化,一方面密码算法是不是都能国产化,有一些密码学的算法要实现完全的国内改造难度还是比较大,而且有一定的开销,比如区块链、隐私计算等等。但像TEE,它有包括鲲鹏、兆芯、海光等这些国产化的解决方案。另一方面就是要实现自主可控,就是整个隐私计算的链路可控,这个挑战确实还是比较大的。
多元技术融合有望拓展隐私计算应用边界。隐私计算正在和不同的技术去做融合去发挥它的潜在价值,比如和云平台结合提升算力,和AI结合提供它对模型的支撑。和物联网的结合一方面是为端侧提供边缘计算的能力,去降低数据汇集的复杂度。另外一方面是为物联网的端侧隐私保护和信息安全去做加固。
06
老师问答
Q1:多元数据如何进行授权才能确保数据使用合规?
A1:不管使用哪种隐私计算技术,我都会考虑把它和区块链做一个相应的凭证授权。随着个人信息保护法和数据安全法出来过后,各家银行或其他金融机构都在更新用户协议,但那只是一种制度,一种纸上的保护。后续我们会把用户的这种授权以及相应的信息存到区块链上。如果需要追踪,都是可以实现复原的。
同时,随着互联化数据交互会越来越频繁,原来到柜面、网点才能提供的服务,有可能会慢慢转移到线上。比如线上电子合同签约需要进行核身,包括我们现在在推的DID,就是数字身份的能力。
我们把整个东西都线上化,每个用户的确认都能实现一个线上化的凭证。然后授权这一步,我们肯定还需要和各个数据拥有方去谈。但是我还是可以把用户的授权结果都上链做存储,后续有安全审计或者司法介入的时候我们都是经得起推敲的。
Q2:刚才您有个表格中列了很多的隐私计算技术,比如TEE、多方安全技术、联邦学习、同态加密等等都各有特点。那您觉得在银行体系,特别是浦发体系下,未来哪些技术可能会得到更多的使用?
A2:因为每一家对技术的理解、实现都各有差异,所以我引用了信通院白皮书(2021)中的这个表格。浦发银行内部应该是从2019年开始做TEE平台的,目前已具备了可信计算、可信执行环境的能力。安全多方计算和联邦学习这两块的应用目前已经有场景落地了,内部也有多方安全计算平台、波塞冬联邦学习平台都在和外部去做了一些相应的场景探索。这三个应用比较多一些。
然后同态加密现在更多的是用在一些点上的加固和强化,并没有大规模使用的场景。当然我们现在也在和业内的一些专门做同态加密的厂商做一些预研。因为它们借助一些硬件的解决能力,能够大幅提高同态加密的效率。
另外大家对同态加密的评价非常高,认为是密码学领域的圣杯。如果真的能够突破,我觉得对隐私计算包括密码学界肯定是一个非常大的贡献。所以虽然我们认为它还不成熟,但依然是一个我们非常关注的隐私计算技术。
差分隐私可能不太一样,我觉得它可能还是受限于场景,有些场景可能用不到。而且我们需要去考虑它的安全性和准确性的博弈。所以我们目前用的比较少。
零知识证明和以上的隐私计算技术的应用场景不太一样。在一些比如分布式数字身份、链上链下计算等算法,都放在区块链里多方之间去形成共识,然后在商应用方面,效率比较低。只要是个多方的计算,它其实对算法和效率影响是比较大的。但是如果我是在一些可控参与方之间,可以进行链下的计算,算完过后,可以在不泄露我敏感信息的情况下,通过零知识证明的方式去做验证。所以这种场景比较适合用零知识证明的方式快速地去实现链下复杂算力的计算到链上多方之间的快速验证。它也会得到广泛的应用,只是会存在一定的算法效率,以及是借助硬件方式还是纯算法的方式去做差异也会比较大。
总结一下,可信执行环境、多方安全计算、联邦学习这三个的关注会多一点,同态加密是持续关注,差分隐私和零知识证明没有绝对的好坏,需要看实际的应用场景。
在文末分享、点赞、在看,给个3连击呗~
🧐 分享、点赞、在看,给个3连击呗!👇




