AI不仅要智能，更需要人文：联邦学习重构大数据风控范式

一个最暴利的行业走向灭亡，它就是现金贷。

以前，现金贷的核心是风控与催收，风控的命门是数据。现在，谈之色变。信贷本没有错，错在这个发展过程中变味了，变得像过街老鼠。信贷行业如何给自己洗心革面，这需要从信贷风控说起。

风控的本质是数据

支撑风控的大数据市场发生了变化，这个变化似乎是不可逆的，所谓风雨之后见彩虹。过去很长时间，放贷的场景是这样子的（这也是美国流入中国的所谓的Fintech模式、零售模式、小贷模式、发薪贷模式……）：

某放贷机构在新闻浏览器投放一支广告——“……只要身份证就能领取8000元急用金……”，小明因为急用钱点击进入，注册领取，这个过程非常简易，包括注册、下载APP、填写信息与绑卡、申请等待、授信通过领款等几个线上操作。

机构是如何对借款用户进行风控呢？上一辈人肯定无法理解，因为他们获得贷款都需要抵押或者担保。互联网金融强调零售业务的效率，这个风控过程被完全搬到了互联网这个虚拟空间。风控的命门变成了数据，从小明注册开始，这一系列的动作，都被放贷机构掌握了他的数据。

放贷机构获得了小明的姓名、身份证、手机号等要素，获得了手机APP底层的行为数据，获得了银行卡信息数据，通过用户ID信息，风控引擎会自动去第三方数据查询更多的标签，比如是否在其他借贷平台有过借款、有过逾期，是否是信贷黑名单，是否经常浏览博彩类网站，填写的家庭地址是否是一个伪造的地址，甚至是小明的通讯录和联系人是否有老赖或者贷款中介……

打一个比喻，一旦申请网贷，借款人相当于被脱光了放在橱窗里，供人审阅！

缺人文道德的金融科技走不远

不傻的人都能看明白，这个所谓的“科技赋能”在过去的互联网信贷模式一定是罪孽的帮凶。心地善良的我们，本应该享受这种快捷的方式借到自己急需的钱，享受科技带来的普惠，却变成了被完全监控、骚扰。你的信息变成暴利商的无成本交易品，你的手机号被无数次倒卖，你一天可能接到十个营销电话、二十条营销短信。这一切都会让本来安安静静的生活变得无序、变得可怕。

金融无奸不商，股市吸血、贷款要命。互金这些年，因为缺乏完整的监管体系，所有的传统金融都试图加持所谓金融科技，大张旗鼓。在科技赋能的过程，脱离了社会人文本质，更严重的是脱离了道德与伦理。这话并不严重，可能是古代的人太笨，不懂得说你脱了拍点裸照就可以得到贷款，这已经是上升到社会道德层面的问题了。

我很想说，缺人文道德的金融科技走不远，也必须不可以走远。缺人文道德，我们美丽文明的国度会失去原本的美好，人心惶惶、胆战心惊，那种生活在新科技时代的不安，会让我们看身边所有事物都感觉是一个陷阱。

金融科技要健康，首先解决隐私问题

过去大多数金融科技案件，都因用户隐私问题引发。非法采集数据、非法贩卖数据的归因其实还是数据行业生态的不完善性，让一大部分奸商有机可乘。金融科技从业者都有这样的感觉，自去年开始，似乎所有的业务都停滞了。迫于法律法规的约束与要求，风控变得一数难求。

金融科技是绝对依赖用户数据的——

精准营销要达到精准，必须使用个人用户数据，比如一个做信用卡推广的银行，如果闭着眼睛去投放信息流或者发短信，roi如果能达到0.3已是万幸。一般的渠道都会进行用户刻画，比如采购消费标签等，甚至是运营商的DPI数据（近期是否浏览过办信用卡的页面），这样的经验标签或者浏览日志可能可以让roi提高到1以上。

风控评分要达到效果，更须依赖于个人用户数据，比如一个银行做个人贷款，如果只用央行征信数据，很有可能借款人不在其中，即使在其中但是数据维度单一。高效的方式是采购第三方的信用数据进行评估，比如某嘛分（当然今天已经不直接输出）、运营商的话费信息、手机设备SDK厂商的APP安装和使用信息、地图厂商的LBS位置数据等等，通过多维度的数据进行联合建模，最终得到借款人的信用评估值。

这些金融业务本质上不是想“买卖”用户数据，作为业务甲乙方本质上只期望得到数据背后的知识和价值。所以，金融科技本没有错，错的是金融科技过程留下的祸根很深。金融科技要正名自己，必须解决科赋能过程中对用户数据隐私的绝对保护和安全。

数据应用范式必须重构

解决用户隐私问题，我们曾经熟悉的API调用与建模方式存在着千疮百孔的漏洞——保险公司去查数据源，保险客户ID就被缓存、被恶意再营销、被迫流失；银行要对信用卡建模，就必须把Y样本（信用卡逾期表现）给到数据源，或者数据源把标签库完整地放到银行端，用户数据的大批量迁移出库往往引起恶劣后果。

风控是支撑金融业务的核心，要持续健康地运转，必须重构数据应用的范式——数据厂商与金融机构用安全计算的方式合作数据，用人工智能保证数据的绝对安全。一个简单的安全计算（举例联邦学习）为例：

Role A表示银行端，Role B表示数据源，用联邦学习的方式使用数据进行联合建模，整个过程数据本身只在本地私域进行计算，过程中交互的是加密的模型参数，最终得到加密的分布式模型。

安全计算既保护数据，又提效

多个模型交叉

有过风控经验的工程师都经历过，假设现在有2个数据源，运营商数据和SDK数据，如果对方都不直接输出标签的情况下，智能带着Y样本分别去运营商和SDK服务器上建模，分别训练出模型。实际应用过程中，相当于分别调用模型，得到各自的评分，最后做交叉评估。

多方联合建模

（多方）安全计算可以实现统一建模，在一个平台上，同时用运营商和SDK的标签，进行多方训练，得到一个更完整的综合评分模型。

多方安全计算联合建模优势：

1）保证用户隐私安全，数据不出本地私域；

2）避免单数据源联合建模的特征

大数据风控未来，算法定义边界

数据业务能做多少大，不应该只取决于业务的市场容量有多大，业务做到哪儿应该停止，这个问题将会被算法重新定义。为什么如此说道？因为数据业务的敏感性，迫使一旦遇到数据安全带，就必须停止，这就是所谓的边界。这个边界可以有法律来制定，但是往往很难，因为数据业务的错综复杂导致没有一个条例可以讲清楚你这样用数据是不是合法合规。

先定义模式，在模式之内，你能够到的地方，都允许你去触碰，这就清晰了！数据业务回归业务本质，不需要去担心和考虑是不是触碰到法律。这就好比足球场上的球员只要关注自己的球技，不要将球踢出边界即可，球场上尽情发挥、淋漓尽致，踢出精彩的比赛。

安全计算，定义好了这个足球场和球场规则，数据源和金融机构作为参与方，在这个球场上，不存在数据出界的机会：数据不出库、可用不可见、模型满地跑。

尊重人文，才是人工智能

“人工智能是一个很宽的词汇，本意上是让人们的生活更快捷、更美好，多看十年二十年，人工智能才处于一个早期，人工智能赋予金融业务显得过于急躁，过程中的“不愉快”可以成为一个经验或者教训，往后发展之路，必须步步“经”心，必须回归到本意，那就得尊重人文。否则一切都会弄巧成拙、畸形怪出。”富数科技高级总监黄奉孝在一次隐私计算讨论会上说，“目前包括我们在内的做安全计算的几家公司，都试图用新的技术来诠释安全的定义，最终让人工智能更贴近人文，更拥有社会责任感。”。

互联网与科技发展之快，如飞奔的高铁，适当的时候放缓脚步，回过头看看存在的问题，这是企业和行业的责任！游戏行业如何引导孩子的健康？直播与社交如何抵制涉黄？金融如何防犯用户隐私问题？……产能巨大的话题行业与人工智能结合显得极为重要，警惕互联网大跃进过程中的人文迷失。

AI不仅要智能，更需要人文：联邦学习重构大数据风控范式相关推荐

平安科技王健宗：所有AI前沿技术，都能在联邦学习中大展身手
「AI 技术生态论」人物访谈栏目是 CSDN 发起的百万人学 AI 倡议下的重要组成部分.通过对 AI 生态顶级大咖.创业者.行业 KOL 的访谈,反映其对于行业的思考.未来趋势判断.技术实践,以及 ...
IEEE ICIP 2019 | 更快更好的联邦学习：一种特征融合方法
目录前言 Abstract 1.Introduction 2.Related Work 3.Methods 3.1 Feature Fusion Modules 3.1.1 Conv operato ...
AI公开课：19.05.29 浣军-百度大数据实验室主任《AutoDL 自动化深度学习建模的算法和应用》课堂笔记以及个人感悟
AI公开课:19.05.29 浣军百度大数据实验室主任<AutoDL 自动化深度学习建模的算法和应用>课堂笔记以及个人感悟导读浣军博士,汉族,1975年出生于江苏苏州, ...
大数据风控AI竞赛总结
前海征信"好信杯"大数据算法大赛 (2017) 竞赛背景作为平安旗下专业第三方商业征信机构,前海征信有着丰富的数据资源.本次赛事中主办方前海征信开放业务数据,设计国内首个迁移学习 ...
四位顶级AI大牛纵论：深度学习和大数据结合的红利还能持续多久？
这轮 AI 热潮的很大一个特点就是底层技术方面在打通,虽然说过去对通用人工智能大家曾经有过很高的期望,但一直没有落地.这次,深度学习给大家带来了很多机会,使得我们在底层技术方面有了越来越多的共性.然而 ...
专访宜信AI中台团队负责人王东：智慧金融时代，大数据和AI如何为业务赋能
前言:宜信技术人物专访是宜信技术学院推出的系列性专题,我们邀请软件研发行业的优秀技术人,分享自己在软件研发领域的实践经验和前瞻性观点. 第一期专访我们邀请到宜信科技中心AI中台负责人王东老师,从大数据 ...
资源 | AI、神经网络、机器学习、深度学习以及大数据学习备忘单
向AI转型的程序员都关注了这个号☝☝☝ 以下是关于神经网络.机器学习.深度学习以及大数据学习的备忘单,其中部分内容和此前发布的<资源 | 值得收藏的 27 个机器学习的小抄>有所重复,大家 ...
联邦学习中的数据异构性问题综述
摘要联邦学习中的数据异构性问题主要是由参与训练的各客户端的数据虽独立分布但不服从同一采样方法(Non-IID)所导致的,这一问题也导致模型精度的严重下降.如何缓解Non-IID带来的不利影响目前仍是 ...
顶级AI科学家裴健入职京东携手共探大数据与智慧供应链领域
内容来源:ATYUN AI平台今日,京东集团宣布,加拿大西蒙弗雷泽大学计算科学学院教授.统计与精算学系教授裴健博士入职京东,任京东集团副总裁. 裴健博士将负责大数据平台与产品研发部,整合京东集团整体 ...

AI不仅要智能，更需要人文：联邦学习重构大数据风控范式

AI不仅要智能，更需要人文：联邦学习重构大数据风控范式相关推荐

最新文章

热门文章