大数据文摘作品

作者:魏子敏


金融风控领域的竞争在今年忽然激烈起来。众多初露头角的企业,正在这两个方向展开厮杀--数据获取能力和算法技术。

就在几个月前,前一个赛道开始堵塞。

今年6月,《网络安全法》开始实施。未经授权爬取用户手机或者社保记录,公司法人将依法获刑,最高七年;一批以数据交易为主要业务的公司也正面临调查。

一大波依靠外部数据整合进行风控和反欺诈的企业前景模糊,算法和建模能力在这个领域的重要性渐渐凸显出来,技术起家的一批风控公司开始显露头角。

而失去了灰色数据的金融风控行业,尽管技术上仍旧面临挑战,但似乎终于有机会朝着健康合规的方向发展。

艰难的角逐:算法还是数据?

加州大学伯克利分校计算机博士、清华大学交叉信息研究院兼职教授黄铃用“一场全球范围的战争”来形容自己的工作。”在风控这个行业,我们的对手是一条全球范围的巨大黑产链条。”

慧安金科创始人兼CEO、加州大学伯克利分校计算机博士、清华大学交叉信息研究院兼职教授黄铃

从源头上来说,风控面临着遍布全球的黑客对手。他们通过软件入侵手机和计算机,一方面获取隐私数据,另一方面利用这些“肉机”开通假的账号,去做各种虚假的社交、购买互动,“养”出一个个看似正常、有很多朋友关系,并且有良好购买行为的账号,用它去申请使用各种金融产品。

而金融风控的核心就是利用相关数据做建模分析,剔除虚假用户,再对真实用户做还款能力、还款意愿的风险评估。

近几年兴起的大数据风控公司完成这一工作主要依靠两个层面的能力:算法能力和数据获取能力。

目前,面对巨大的团伙化、专业化的黑产链条,市面上已有的风控和反欺诈解决方案在算法技术上仍略显逊色。方案提供商往往使用设备指纹、黑/白名单、规则系统或者有标签的机器学习模型等来检测欺诈活动。有些方法只做了浅层分析,很容易被恶意对手规避和欺骗。还有些用到了机器学习方法,但往往都依赖有标签的历史数据来训练模型。这些标签数据往往稀少,而且只能代表过去发生的欺诈活动,用这些数据训练出来的模型准确度都不够高,很难应付日益变化的欺诈手段。

还有一大批风控公司主要依靠强大的数据获取和整合能力。但通过爬虫、购买等方式,这些被整合的数据严格来说包含了一大部分个人的隐私数据:身份证、电话号码、银行卡、个人存款、家庭具体位置。行业内现有的解决方案极大的依赖这些数据,它的使用严重侵犯了个人的隐私,合法性备受诟病。但数据量级对建模准确度有巨大的影响,这些敏感数据去掉之后,就更加考验对算法的实现能力。

风控数据的获取:量级还是场景更重要?

那么,算法的精进可以弥补放弃大量敏感数据造成的损失么?

上个月,大数据文摘在纽约对恒昌集团CFO沈潇同(Tony Shen)进行了独家采访,他认为,在使用非直接与借贷行为或信用行为相关的数据时,我们应该持比较审慎的态度。

“有些人频繁网购,但可能正因为他频繁网购会导致他不够钱需要去借,所以网购的即时支付并不一定能反应他是一个有信用的人,反而会因此在贷款时不讲信用。”’

社交和网购数据虽然有参考价值,但是未必比与这些直接与金融相关的数据更有用。沈的态度代表了传统金融人对于互联网风控的一贯谨慎态度,也体现了这个行业普遍面临的一个问题,在风控数据的获取上,到底是数据量级还是数据场景更重要?

在这个问题上,黄铃显然更支持后者,”我觉得要看我们谈什么样的数据以及如何使用它们,爬来的那些数据不见得在这里能够起到多大的作用。要针对客户的数据、客户的应用场景,帮它们去挖掘,要更精准、更贴近它的东西。“

金融风控的核心客户是互联网企业、互联网金融企业以及金融机构。这些机构的共同点在于存在大量的账号。以账号为中心,可以获得很多个人信息,比如银行存款、购买历史、借贷情况等,而风控的工作就是,根据这些数据记录进行建模,对每个账号做还款能力、还款意愿等方面的风险评估,从而决定给这个人多少贷款等。

黄铃认为,基于脱敏数据对用户行为的建模,也可以实现风控反欺诈的目的。“在进行行为分析的时候,一般是看这个人的社交关系、电话通迅详单、电商购买等行为,这个行为指的是这个账号从什么地方使用什么设备在什么时间注册和登录,在登录之后做了什么事情(浏览了什么页面,购买了什么商品,加了什么人做好友,和谁进行了通话等),虽然也会有一些敏感的信息,比如你的朋友是谁,但这些数据是经过了脱敏处理的。在此基础上,基于图算法进行用户关联分析,识别用户之间隐秘但互相关联的信息和行为。”

黄铃和他的团队慧安金科也正在进行相应的尝试:

“我们自己几乎不拥有任何用户的敏感数据,我们更重要的用一些非敏感的数据,针对我们客户拥有的那些行为数据,结合客户的应用场景,用人工智能大数据的方法帮助客户挖掘它自己数据的价值,在它的场景下生成出最适合它的风险控制模型,帮它达到在它自己的平台上最好的检测结果。这样就可以在不侵犯个人隐私、无需预知欺诈的类型和特点的前提下,自动地在成千上万的用户中识别不正常的关联,从产生预测性的风控信号,防范团伙性和系统性风险。”

重新定义风控:从数据源头开始

这样的数据获取方式也对企业的数据提出了更加严格的要求。

“其实在我们做风向控制模型,第一个环节看的就是数据的质量如何,包括这个数据是不是有缺失,数据内容是不是包含和风险相关的信息等各种因素。”

黄铃认为,风控不止是发生在建模和检测的时候,在企业端,从数据的采集端已经发生了。慧安金科在与客户打交道时,会从服务的角度帮组客户提升相关方面的能力:

首先,风控信号输出到客户平台后,平台可以把风险值高的那部分用户直接封掉;其它的部分可以当作一些特征维度合并到他们的规则和模型里进一步加工和提炼,再做下一步的处理。

此外,针对数据采集,以及在数据中发现的欺诈发展趋势、模式,每隔一段时间给出反馈。

这两者会同时进行,如果有一些数据质量不达标,必须要求客户先去修改,再及时反馈出它在某些方面的问题,就算现在弥补来不及,也要尽快把这部分给补起来。”

“我们会根据做反欺诈风控的经验去建议客户如何采集数据内容,所以我们跟客户合作不单单是你有需求,我帮你把欺诈检测出来,我们同时会给客户很多反馈、很多交流。帮助他们从系统业务到数据采集、风控能力方面做一个全方面的顾问和服务。”

金融风控的对手是全球巨大的黑产链条,因此是非常复杂的项目。大热的人工智能和机器学习正被大量引入这个领域,但想把它们用好并不是一件容易的事情。

当前市场不少解决方案主要依靠大量数据的收集,使用规则系统或有监督的机器学习去生成模型。这些方案存在明显不足:这些模型往往是依赖于历史标签数据进行训练。但这些标签往往都是我们遭到欺诈攻击以后才能产生的,是付出血淋淋的代价才能获得的,往往都很稀少。这种标签训练出来的模型质量不够高的,而且这种标签训练出来的模型,往往只代表过去历史上发生过的欺诈行为。当欺诈分子变换新手段的时候,依赖于过去标签训练的模型,往往很难快速、准确地抓到他们,很容易造成巨大损失。

黄铃的团队利用半监督学习方法,使用少量甚至没有标签的数据进行建模,可以大幅度降低获取标签的成本,提高数据使用率,产生更高质量模型。采用主动式机器学习平台,有机的结合人工智能大数据系统超大规模的数据处理能力和风控专家丰富的经验,帮助人工智能系统自动的学习未知的欺诈模式,追踪新的欺诈手段,不断的适应日益变化的环境,从而生成可以对抗欺诈分子机器学习模型,使得欺诈分子很难规避检测。

风控行业的黑产链条:这是一场全球的战争,中国是更艰难的战场

在金融风控领域和慧安金科有着同样态度的还有一家硅谷的公司——DATAVISOR。2014年起,黄铃辞去了在英特尔研究院任职七年的资深研究员的职位,在DATAVISOR担任创始成员和大数据总监,主持了公司整个机器学习、用户行为分析和信用模型系统。在这里,他见证并参与了硅谷最新一代、也是最有名的,用无监督的方式来做风控方式的成熟。

DATAVISOR官网

黄铃始终相信,在国内做风控其实并不比硅谷容易。反欺诈面对的黑产是一个产业链,这个产业链的团伙在全世界范围内合作的,从这个最上端的安全攻击软件,到用这些攻击软件去全球范围内去控制肉机和手机,到用这些肉鸡和手机去做出虚假的用户来,到用这些用户去做各种欺诈活动而从中获利,这是从东欧到美国到中国到印度一起来合作的一个链条。

所以从某种程度上来就是说风控、反欺诈在全世界是相通的,很多在中国的互联网企业和金融机构也面临着国外的攻击,而在美国的很多攻击也是通过中国、印度、非洲或者东南亚很多国家的人去实现的。

那么,中美之间更大的区别是可能来自政策上和产业发展上:

在美国,信用体系相对健全,所以做欺诈的成本会比较高,很多时候不管银行还是电商,如果发现了欺诈行为,会通过各种途径影响信用分。在中国这方面体系还不够成熟,很多情况下,互联网金融上的一些欺诈行为不会直接反映到央行的征信中。相对来说欺诈成本会比较低,所以某些大范围的欺诈可能在中国甚至会比在美国还要更多、更难对付;

其次,中美之间的产业发展不同,中国的移动应用和互联网金融产业要远比美国规模大,由此围绕着这个产生的各种欺诈活动也会比美国的更多。

“回来了之后,我们发现国内,特别是在金融相关的领域,这种欺诈团伙的的规模更小更狡猾,而且用更多的真人去做出欺诈活动,所以相对来说更难检测,需要用更多的机器学习和人工智能的方法来建模。”黄铃称。

而在这样一场全球化的战场上,精通人工智能算法和计算机安全的科学家的加入,就更显得弥足珍贵。

在谈及创业初衷时,黄铃称,“我在人工智能算法和网络安全领域做了很多年的研发和实践应用,我希望我以前积累的这些技术和经验可以在金融风控和反欺诈领域起到实际的作用,能提供一套系统和服务,为我们的金融和互联网的产品保驾护航,能够给我们的互联网和金融产业实现一个更加安全、诚信和公正的环境。“

除了黄铃,慧安金科的另一位创始人、首席科学家徐葳也来自学界,任职清华大学交叉研究院助理教授。对于AI科学家进入风控领域创业,黄铃认为是一件好事情,可以给有技术,掌握算法,又愿意接地气的科学家一个机会,真正参与进行业内,而不是仅仅当一个螺丝钉。

往期精彩文章

点击图片阅读

大咖丨交通运输部科学研究院:交通运输大数据的基础环境正日益成熟-清数•思享会

抛弃爬下来的灰色数据,有门槛的风控怎么做?相关推荐

  1. python 柱状图上显示字体_Python爬取百部电影数据,我发现了这个惊人真相!

    2019年就这么匆匆过去了,就在前几天国家电影局发布了2019年中国电影市场数据,数据显示去年总票房为642.66亿元,同比增长5.4%:国产电影总票房411.75亿元,同比增长8.65%,市场占比 ...

  2. python爬取百部电影数据,我分析出了一个残酷的真相

    2019年就这么匆匆过去了,就在前几天国家电影局发布了2019年中国电影市场数据,数据显示去年总票房为642.66亿元,同比增长5.4%:国产电影总票房411.75亿元,同比增长8.65%,市场占比 ...

  3. python爬取网页json数据_python爬取json数据库

    手把手教你使用Python抓取QQ音乐数据(第一弹) [一.项目目标] 获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 由浅入深,层层递进,非常适合刚入门的同学练手. [二. ...

  4. python爬虫senlenium爬取拉勾网招聘数据!

    一.基本思路 目标url:https://www.lagou.com/ 用selenium爬虫实现,输入任意关键字,比如 python 数据分析,点击搜索,得到的有关岗位信息,爬取下来保存到Excel ...

  5. 用Scrapy爬虫框架爬取食品论坛数据并存入数据库

    这篇文章主要给大家介绍了食品网站的数据采集和存储过程,详解了如何分析网页结构.爬虫策略.网站类型.层级关系.爬虫方法和数据存储过程,最终实现将帖子的每条评论爬取到数据库中,并且做到可以更新数据,防止重 ...

  6. PHP爬取post网页数据,php curl发送post请求爬取webService接口数据简单实例

    header('Content-Type: text/html;charset=utf-8'); /** * 使用curl发送post请求 * @param $url * @param string ...

  7. Python 爬取北京二手房数据,分析北漂族买得起房吗?(附完整源码)

    来源:CSDN 本文约3500字,建议阅读9分钟. 本文根据Python爬取了赶集网北京二手房数据,R对爬取的二手房房价做线性回归分析,适合刚刚接触Python&R的同学们学习参考. 房价高是 ...

  8. 腾讯云发布全链路数据开发平台WeData,企业数据开发门槛降低60%

    9月11日,在腾讯全球数字生态大会大数据专场上,腾讯云重磅发布了全链路数据开发平台WeData,同时发布和升级了流计算服务.云数据仓库.ES.企业画像等6款核心产品,进一步优化和提升了腾讯云大数据的全 ...

  9. 使用进程池模拟多进程爬取url获取数据,使用进程绑定的回调函数去处理数据...

    1 # 使用requests请求网页,爬取网页的内容 2 3 # 模拟使用进程池模拟多进程爬取网页获取数据,使用进程绑定的回调函数去处理数据 4 5 import requests 6 from mu ...

最新文章

  1. Atlas Samples Suse Linux 10.1
  2. 为什么 wait 方法要在 synchronized 中调用?
  3. [云炬创业学笔记]第二章决定成为创业者测试12
  4. 深入到系统组件是否白盒测试_2019年系统集成项目管理工程师:第一章 信息化知识(三)要点?...
  5. primefaces_懒惰的JSF Primefaces数据表分页–第2部分
  6. onInterceptTouchEvent / onTouchEvent响应事件的详析
  7. [导入]获取表单所有元素的类型或者属性或者是value
  8. 吴恩达神经网络和深度学习-学习笔记-42-目标检测
  9. 掌握好数据分析,99%的企业都不会拒绝你
  10. matlab单服务排队模型,MATLAB模拟银行单服务台排队模型
  11. oracle adpatch 回退,Oracle EBS施用adpatch工具打patch过程
  12. Leetcode 665. Non-decreasing Array
  13. php7 error reporting,php中的error_reporting(7)的含义
  14. 【Java分享客栈】我曾经的两个Java老师一个找不到工作了一个被迫转行了
  15. 惹某人突然不舍de第七周(习题+感悟)
  16. Github+Typora+PicGo+Jsdelivr 实现白P图床
  17. Windows变慢原因分析及解决方法
  18. 指纹识别-(1)基本知识
  19. 单片机程序烧录的3种方式(ISP、ICP、IAP)是什么?
  20. 六十星系之16天相独坐丑未

热门文章

  1. python语句print(chr(65))_Python语句 print(chr(65))的运行结果是
  2. Python学习之——逻辑运算符
  3. Vis-MVSNet: Visibility-Aware Multi-view Stereo Network(IJCV 2022)
  4. 给你一个整数 x ,如果 x 是一个回文整数,返回 true ;否则,返回 false 。回文数是指正序(从左向右)和倒序(从右向左)读都是一样的整数。
  5. 什么是程序化自动交易接口?
  6. 学人工智能专业后悔死了?
  7. 【C语言】操作符(运算符)
  8. JIDE software 3.7.12 released version
  9. mac 出现 Failed to create parent directories for [/data/applogs/xxl-job/xxl-job-admin.log]
  10. vc++学生学籍管理系统