光大科技向小佳博士:关于联邦学习落地 "临门一脚" 问题的思考与探索
分享嘉宾: 向小佳博士光大科技副总经理
出品平台:DataFunSummit
导读: 我是来自光大科技有限公司的向小佳, 我们团队一直在为光大金控集团的协同和数据共享在持续不断努力。我今天将结合联邦学习落地"临门一脚"的问题, 以及业务上的一些思考和技术方案, 跟大家做一些交流。
主要内容包括:
▪首先是监管背景, 简要介绍现在的监管态势。
▪然后是针对法规上的严格监管, 我们采用了哪些技术手段来缓解相关问题。
▪接着是关于业务专家的激励问题, 不论明文共享还是联邦共享, 能落地的必定是有业务价值的, 要给参与推动共享的组织带来效益, 给业务人员以激励。
▪最后是技术上"最后一公里"的问题, 我们也在研究联邦的一些内核的技术, 去年也做了一部分算法的革新, 但是站在金控集团的角度考虑, 我们希望能够在近期内有一些效益出现, 所以我后面会做一个小的演示, 将技术上的一些难点向大家做一个介绍。
01
监管合规对金控数据共享提出新要求
加强个人信息, 尤其是金融信息的保护, 保障数据安全成为必然趋势
合规对数据共享提出了新的要求, 尤其是今年人行出台了两个法规, 对个人信息进行保护。
2020 年出台的规范是最多的, 包括个人金融信息保护试行办法, 个人金融信息保护技术规范, 金融消费权益保护实施办法等等。大家看一下知道监管的态势, 尤其是, 除了个人信息方面, 其他类型信息保护其实是多头治理的, 国家秘密、商业秘密、公司治理、反垄断, 都有相应的法律出台, 网信办在这方面也很有权威。
最后也给大家贡献一个案例。原来大家都有一定的侥幸心理, 但实际上在证监会执法时候是非常严格的, 即便是加密的信息做了共享, 还是会被证监会处罚, 这件事情当时对我们的触动也比较大。这个案例是基于证监会《证券基金机构信息技术管理办法》(证监会令第 152 号) 第 34 条, 一家证券公司受到处罚。当时是银证之间的合作, 还是用了透明信息, 也是被处罚了。所以从宏观上看, 政策趋严。
总结一下, 在法律法规上, 目前尚无明确的法规确定联邦学习方式可以用于客户隐私数据共享。但从当前强监管的态势来看, 其实联邦学习或者是多方安全计算已经是一个必然, 想要再用原来的方法来做数据的共享几乎是不可能的, 所以从法规上来看, 联邦学习是必由之路。
02
做到完全合规
提出带审计功能的联邦学习, 为证券基金经营机构的数据合规提供过渡解决方案
首先我们来看怎么做到完全合规, 尤其是证券基金机构。为了让联邦学习落地, 我们提出了一个"加强联邦学习的审计"的要求。其实这跟联邦学习的内核并没有太大关系, 我们对联邦学习的建模、算子、pipeline, 其实没有做任何改造, 只是在联邦学习的"最后一公里"之后, 给业务机构提供一个基于区块链或是其他系统的不可篡改的证据, 方便让机构的从业人员在做了联邦学习的数据联合以后, 还能够有一些材料和资料来提供给审计方, 做法律上一些储备。
举一个最简单的 PSI 的例子, 联邦学习 RSA 算法将用户数据进行 hash 后, 利用公钥对用户三要素哈希值和手机号进行加密, 按需对加密数据进行统计计算, 实现了 152 号令第 34 条"原始数据不出证券基金经营机构"的要求, 并增加了审计环节 -- 所有的数据提取都要留证, 之后再传给需求部门。
说起来这其实算是一个工程上的小改进, 主要是为了做到完全合规, 可以称之为过渡方案。
基于现在的技术手段, 我们能实现三种方案: 客户的总量模型, 可以做一些客户的总量评分;PSI 类客户模型, 即多家机构之间客户协同的指标, 还有区域客户模型, 能够输出一些粒度更细的模型指标, 但依然无法精确到个体。所有的模型在做完以后都要留证, 它主要是应对当前的过渡时期来做的一种折中。
03
逐步解决业务上的不愿
落地场景是关键: 智策-集成联邦学习的风控
狴犴-金控数据要素有偿共享沙箱
针对"业务上的不愿", 我们在风控策略里做了一些联邦学习的集成作为试点。另外我们也提出了一个新的思路, 从联邦学习这个层面给予激励, 提供一个公平公正的数据流通平台, 在平台上能够把数据的贡献能够清晰的记录下来, 并且对数据贡献方给予一定积分上的奖励, 促进业务方能够真正加入到数据和联邦学习的共享两个环节中来。
首先是一个实例, 是我们和某持牌消金公司的一个合作。它原本的风控引擎贷前贷中贷后的一些策略还是以规则为主, 针对该消金公司想在集团内部拓展业务的场景, 我们可以采用联邦学习, 在不透露客户具体信息的基础上为他们提供客户准入、以及额度方面的规则与策略, 同时也可以获取一些抽象的客户评分, 指导其准入和授信。
另外一个案例, 是向愿意拥抱联邦学习的业务部门提供的一个激励方案。在数据流通中, 目前存在四个痛点: 第一是数据权属不明, 需要一个公平公正的平台来记录数据的归属; 第二是数据价格难判断, 所以我们参照市场机制做了一个有偿的共享沙箱; 第三是数据隐私容易泄露, 安全难保障, 这个是联邦学习的拿手好戏, 也是我们现在为什么提出多方安全计算的原因; 第四是数据流通能力弱, 这是一个商业的问题, 需要一定的激励机制。
针对这四大问题我们提出了"狴犴"金控数据要素有偿共享沙箱方案, 其根本思想还是借助联邦学习, 把数据资产用联邦学习做线上打包进行线上交割, 为愿意拥抱数据共享的业务方提供一个公平公正的平台, 使他们的数据共享没有后顾之忧, 同时还能带来一定的激励。狴犴平台使用区块链来做激励的定价, 区块链会产生积分, 可以用于联邦内的数据交换。
整体框架分为三个部分: 狴犴有偿共享平台, 采用互联网架构, 类似 Pusher 的消息分发机制;Quorum, 做分布式账本, 一方面用于记录有偿共享的一些信息、生成电子合约, 一方面用于联邦的资产定价。我们发行了两种积分, 一种是稳定积分, 另一种是用于激励的促活积分; 基于联邦的引擎, 我们目前选择了 FATE。
以下是一个例子: 如果银行愿意和其他公司共享, 可以把相应的加密数据资产拿来上架, 系统会赋予其一个编号, 自然也会有买方, 双方都采用稳定积分结算。如果购买的次数频繁, 供需关系会在平台内引起流通量和价格的变化, 自然会激励卖方多放优质的数据上架。这也是联邦的一个好处, 数据资产是可以在线交割的, 而不像黄金、原油可能需要线下交割。
有偿共享平台有如下特色: 数据资产分为 raw data、数据产品、数据模型等类型, 都可以拿来有偿共享; 数据资产不出域, 满足监管要求; 区块链积分做记账结算; 上架的产品为数据资产使用权限, 可以存在类似时效、次数之类的限制; 采用双轨积分制, 稳定积分为联邦资产定价, 证券通行证的促活机制能够让稀缺的资源更加显示出其价值; 利用区块链技术进行全生命周期的数据安全保证。
以下是联邦数据资产打包的一个例子。资产为某银行的客户数据, 但是明文对外不可见, 通过类似"撞库"的方式提供收费服务, 如果银行的客户信息可以增强买方标签的说服力, 就可以有偿共享。在线平台交割避免了很多线下操作的麻烦, 例如谈合同等等, 但也需要形成一定固有的共识模式。
对于双轨积分制。首先, 稳定积分 EBP 来购买资产,EBP 是由金控集团背书的稳定性积分, 用于数据资产的共享激励、积分通兑, 可以实现出入金的 KYC 和反洗钱的一些风控策略, 后期也可以做一些规则, 实现穿透式监管。数据的交割任务同样都在区块链上面存证, 这跟之前审计的想法是一样的。
EBST 就是我们证券行通证, 在稳定积分基础上发行, 它可以承担全资源的证券化, 解决融资难融资贵的问题, 激发中小微企业的入驻平台的积极性。
如果不是真正的数据使用者, 也可以申请 EBST, 获得收益分红。在集团内的收益分红其实就是数据的使用权, 收益分红会折算成稳定积分, 稳定积分又可以去兑换更多的数据服务, 形成一个内生的闭环。
04
创新缓解技术上的不易
提出 Federated AI Hub 和前端联邦推理的概念
在技术上, 我们创新了一些算子。在面对客户的"最后一公里"方面, 我们也有一些想法的创新, 一个是联邦推理的前端化, 第二个是联邦服务的 SaaS 化。
通常大家使用联邦学习应该是右下角这样一个模式, 以 local server 为中心, 我们对比左上角使用 FedAI Hub 的联邦推理模式, 它虽然没有把联邦训练前端化, 但实现了联邦推理的前端化, 把联邦放在前端, 同时有性能优势, 绕开了 local server, 用手机之类的硬件分担服务器的负担。
以上是目前我们在金控公司内推广遇到的一些痛点。
05
未来展望
关注并期待业界的发展:
▪更成熟的联邦学习工具链, 开箱即用, 学习成本低
▪ 标准的统一, 使得跨平台合作成为可能
▪ 金融级安全, 安全算法, 安全协议经得起推敲
▪ 更多辅助合规的技术手段、工具 (审计), 助力法律尽快出台
▪ 与区块链的结合, 建立公正、公平、合理的数据交易环境
▪ 更多数据资产上线联邦平台
今天的分享就到这里, 谢谢大家。
2022-05-06 14:07:46