今年10月,我在罗敏的邀请下从美国回到了国内,在这之前,我一直都在美国的商业银行Capital One工作。

在美国期间,我也在关注中国的消费金融市场。一方面,中国这几年在Fintech领域的突破令全世界都叹为观止,对全球的金融机构来说,“中国Fintech”都是一个很好的研究样本。另一方面,有很多我在美国的同事在近几年陆陆续续的回国投身到了金融创新的大潮中,我们有一个微信群,也会经常在群里面交流,这也成了我了解中国金融现状的另外一个通道。

在回国的这一个多月里,我跟我现在的同事有过很多的交流。这是一个很能打仗的团队,他们在一年半的时间内已经基本上完成了将线下风控搬到线上的目标。

风控由线下转到线上是一个大趋势,对这一点我在之后的文章会探讨。但线上大数据风控的搭建需要长期的完善过程,不论从我们个体还是整个行业来看,大数据风控都还有许多的坑需要我们去填。

第一个坑是具有中国特色的团伙欺诈难题。

目前国内的信用市场,反欺诈仍然是头号难题,而授信将会被作为长期的目标逐步完善。当然,我提到中国特色反欺诈并不意味国外就没有欺诈,只不过各地的犯罪分子会“因地制宜”的制定不同的欺诈策略使得欺诈更容易得手。

在Capital One的时候,我们会对欺诈进行分类,比如说有first-party fraud以及third-party fraud。

所谓的first-party fraud是指欺诈主体就是犯罪分子自己,没有第三方受害者,犯罪分子会用虚假的信息来伪装成好人然后获取信用。在美国,曾经很常用的一种first-party fraud手段是虚假信息养号。

美国的银行调用传统征信机构数据时,如果能发现某个人的信用记录,那就会默认这个人存在。犯罪分子会利用这一点,先制造多个假的名字和身份去申请信用贷款或成为主账号的授权用户,初期他们很可能会被拒绝,但这些假的身份信息已经被记录在案,而且他的信用等级也有可能会随着时间的推移而逐渐好转。接下来,他可能会去申请一些小额的次级信贷,比如抵押300美元,获得500美元的贷款,如果他表现良好,信用等级会进一步提高。在把账号逐渐养肥了以后,这些犯罪分子会申请高额度的贷款然后跑路。

而third-party fraud是指犯罪分子将自己伪装成别人来欺诈,也就是盗用别人的信用身份。在国外最猖獗的一种欺诈方式是交易欺诈,比如说信用卡盗用。国外的信用卡非常普及,犯罪分子可能会利用黑客技术去盗用信息复制卡片,然后刷卡跑路。这种诈骗的危险性很高,如果你不在交易当时就阻止他,之后就很难追回被欺诈的钱款。这种欺诈在国内也有过相关的记录,但数量比较少。

黑客问题始终在威胁美国信用卡用户

中国特色的欺诈特点是有组织的黑产军团,直接与商家短兵相接,一有不慎,商家就损失惨重。

针对first-party fraud,我们现在有比较完善的解决方案,主要是采用人脸动静态识别,手机实名识别,笔迹识别等一系列的手段,让你证明“你是你”,然后通过自有和第三方的诈骗黑名单,将一系列有诈骗嫌疑的用户剔除。但有的诈骗老手可能已经知道自己在黑名单里面了,他在填写信息时会采用更改敏感信息的方式来欺骗数据库,这个时候我们需要用到机器学习里面的模糊匹配,用一些关键词的变种去捕捉用户的真实身份。更高级的方式是进行用户网络画像,根据用户的地址、电话、社交圈等等属性,以一个个人为点,形成一个复杂的用户网络。每个人在他的网络里会有一些活跃的因素,如果你的网络里面欺诈的指数比其他的网络要高,那就可以判断你的欺诈指数比较高。

真正棘手的问题在于团伙作案的third-party fraud。比较常见的一种方式是刷单诈骗:诈骗分子以付费刷单为由找到我们的用户,让用户下单以后将借到的钱或买的货转给他,并保证借款不需要由用户来还,但事实上,诈骗分子在拿到借款以后就会跑路,还款以及逾期都压到了用户的头上。这样的案例,跟银行储蓄用户被欺诈转账实际上是同样的性质,行业内的多家企业都已经受到侵害,从根本上看,这不仅仅是线上风控的问题,线下风控团队也难以规避,因为找到我们借款的用户用的都是真实的信息,我们给用户的额度也在合理的范围内,这样的诈骗方式会让平台处于很被动的处境。

现在的处理方式只能是发现一起就抓一起,发生之后处理的速度是关键。但之后,我们会采用更主动的方式来防御。目前,我们在搜集我们自己和同行们遇到的相关案例,寻找这部分容易被利用的人群身上的共性。在有足够的样本以后,我们可以梳理出这些用户的画像,并建立相关的风控模型。在以后,我们将不仅仅是守株待兔,更可以主动出击,对有被欺诈风险的用户主动做出提醒、沟通确认或暂缓贷款的规避措施。

第二个坑是系统和数据没经过压力测试。

硬件产品在出厂之前往往要经过压力测试,例如苹果手机在发布前会抽样进行摔落、重压、扭曲、敲击等一系列的折磨,以保障产品在真实使用过程中的高度可靠。

风控系统也一样,我们在搭建风控系统时要考虑可能会面临的各种经济状况,以保障风控的有效性。而我们的大数据概念,是近几年才建立起来的,客观来说,现在的大数据并不全面,无法覆盖到所有的经济情况。这个时候,更多的是需要风控专家的经验,保证风控系统在经济环境发生变化时不会突然失控。

我在Capital One的时候,曾经经历过风控突然失灵的状况。我们在搭建风控模型初期,曾经把刚毕业的用户是否申请了学生贷款作为一个重要的参数。理论上来说,学生申请学生贷款,通常是为了就读高花费的学位,例如MBA。毕业后,这些学生也往往能获得华尔街和硅谷名企的offer,是一个受到高等教育同时拥有高收入的群体,因此风险相对较小。在很长的一段时间内,他们的风控表现的确符合我们的预期。

然而,这个参数在2008年金融危机时期突然失效了,虽然那段时间美国整体的逾期率都有上升,但这部分曾经的优质用户逾期率上升幅度远大于平均值。我们在分析时发现,这部分用户在双重经济压力下导致信用崩溃。美国失业率在2009年10月上升到10.2%,是1983年以来的最高失业率,是危机前失业率的两倍。而这部分高学历学生所向往的金融行业是失业高发行业,他们在毕业后面临着非常严苛的就业环境,同时,他们在毕业后也面临着偿还高额的学生贷款。双重压力使他们的还款能力大幅下降。

经济危机中,雷曼兄弟破产

我们发现这个问题后也想做一些模型上的改动,但发现这将会牵扯太多的因素,修改周期内也会产生更多的损失,最后我们强行加了一个算法,有学生贷款的用户在进风控之前就先砍掉,先止损然后逐步改进算法。

我们国内的风控也面临着同样甚至更大的风险,美国经历过的金融危机我们并没有经历过,但这不能保证以后不会发生。这要求我们在做风控时要考虑更多的细节,更有预见性和前瞻性。但这件事情同时也充满了挑战,大数据的维度太多,要在哪些维度上深入探究才能起到最好的防范效果,需要进行长期的测试。

第三个坑是高速发展过程中的模型搭建问题。

中国的Fintech市场经历过一段抢用户的时期,高速的增长意味着我们没有时间先给风控体系做出规划,而往往是走一步,看需要什么样的算法,然后进行开发、测试。

这样的风控做法很符合互联网思维:快速试错、快速纠偏。我们能这样做也是基于现在业务小额、短周期的特点,而这样的打法也有利于我们快速的做出决策。从逾期率等一系列业务指标来看,这样的风控很适合我们现在的业务模式。但从长期来看,长期的、中大额的借贷肯定是我们要发展的方向,在开展这类业务时,目前的风控将面临很多的问题。

首先,我们的系统不是一个有条理性的系统。我们在用户的注册、审核、消费等阶段都会有反欺诈。现在的做法是,如果发现风控结果有偏差,就会逐个阶段去测试相关参数,用第三方的数据加在上面,去看结果。然而,我们在打造风控时并没有按照一个逻辑顺序来设计,而是需要什么算法,就在外面嵌套一层,从结构上来看,就像一锅大杂烩,所有的算法都混杂在一起,没有主次优先。

其次,这个系统是庞杂而混乱的,我们没有一个人能完完整整的推理出目前风控系统的逻辑,它是如何运转的,又是怎样实现这样的算法。这导致的问题是,一旦我们的业务转向长期和大额,在遇到问题时去调整时会很吃力,效率也会很低。因为你要看的不只是未来的一两个月,而是未来一两年,甚至更长的风控状况。我们不知道哪些数据是在紧急情况中最核心的,我们也不知道一个策略会产生一个什么样的影响。

为了解决这个问题,我们已经开始着手进行系统梳理。我们要做的是把现在的风控引擎进行拆分,梳理出所有的策略模型,然后用模块化的方式架构起来。之后,每个风控模块有自己独立的功能,模块之间的架构也不是一层套一层,而是像积木一样,以API的形式来连接。当主体逻辑判断某个用户的审核需要某个模块时,引擎会自己调用。

这样模块化的风控引擎有三个优点:

首先,在每个客户每个阶段的风控审核中,风控引擎的作用将会非常明晰,有利于对用户分级的进一步细化。现在,我们根据多个维度给用户做了近千层的分级,但这样的分级还是太过粗略,我们真正的目标是要做到微分层,细化到每个用户个体,这可以通过每个用户调用不同的模块实现。

其次,风控系统出现问题时,我们可以快速定位出现问题的模块,修改将会更有目的性。

最后,系统的进化将更为便捷快速。新的算法和模块可以独立开发,即插即用,而不会出现牵一发而动全身的情况。

总结:

这三个坑是我回国以后需要解决的课题,从目前的情况来看,国内的Fintech行业前景还是非常乐观。中国的大数据风控不论在实用性还是开放性上,都要优于国外,企业也愿意投入更多的资金来促进技术的进步,这都为我们行业的发展提供了充足的动力。

本文作者:粘旻环

来源:51CTO

打造线上的大数据风控,我们发现了这三个坑相关推荐

  1. 网商银行俞胜法:大数据风控+平台化打造普惠金融能力

    7月31日,在2016上海新金融年会暨互联网金融外滩峰会上,网商银行行长俞胜法表示,普惠金融不仅是一种愿景,还是一种能力,互联网金融.互联网银行想要去具备普惠金融的能力,需要从自身的风控能力,尤其是大 ...

  2. 大数据风控怎么做?新网银行的做法是......

    贷款旅个游 贷款买个包 贷款解决个人消费急需 -- 这个年代,个人消费金融产品满地开花 纯信用,无抵押和担保的贷款方式 让风控成为每一家银行的重中之重 新网银行目前也推出了"好人贷" ...

  3. 大数据风控如何做到提升风险防范?

    疫情受到有效控制的这段时间,人们多是在家使用在线医疗.在线生鲜.在线教育等服务,这推动了数字化和线上化业务的发展,而多元的场景与消费模式给金融机构带来的风险远远区别于从前:从大数据风控流程上看,与往常 ...

  4. 大数据风控 ——互联网消费金融的必由之路

    面对蓬勃发展的互联网消费金融的风控需求,针对中小型消费金融平台技术能力薄弱的特点,恒生电子推出了大数据风控平台,为中小型消费金融厂商提供强大的风控服务,从三个方面提供专业的大数据风控支持. 2015 ...

  5. Tech 助力Fin ,大数据风控系统赋能掌众金服!

    胡亚海 首席技术官  CTO 北京航空航天大学  博士 深耕互联网领域近20年,先后任职于普天信息技术研究院.摩托罗拉.宇龙酷派.百度等知名企业,曾主导宇龙酷派公司全员从WinCE向Android转型 ...

  6. 银行大数据风控平台的建设要点与应用

    金融行业是经营风险的行业,风险控制能力是金融机构的核心竞争力.通常而言,金融机构一般是通过给客户的信用状况评分来计量贷款违约的可能性,并通过客户的风险水平进行利率定价. 而传统的信用测算主要是利用历史 ...

  7. AI不仅要智能,更需要人文:联邦学习重构大数据风控范式

    一个最暴利的行业走向灭亡,它就是现金贷. 以前,现金贷的核心是风控与催收,风控的命门是数据.现在,谈之色变.信贷本没有错,错在这个发展过程中变味了,变得像过街老鼠.信贷行业如何给自己洗心革面,这需要从 ...

  8. 大数据风控必看,挖掘学历数据中暗藏的还款意愿及还款能力

    市场上80%以上的信贷产品或信用卡,在申请人填写基本信息时都会需要填写学历情况,银行信用卡部门还会根据学历等级来设置进件门槛及额度标准. 那学历情况对于消费金融行业风控部门设置进件门槛或风控规则权重处 ...

  9. 互联网金融学习总结(4)——大数据风控的九种维度

    前言 在互联网金融迅猛发展的背景下,风险控制问题已然成为行业焦点,基于大数据的风控模型正在成为互联网金融领域的热门战场.那么,大数据风控到底是怎么一回事呢?与传统风控相比,它又是怎样来进行风险识别的呢 ...

  10. 【采用】大数据风控---风险量化和风险定价

    前言 金融的本质从宏观上讲,第一:为有钱人理财,为缺钱人融资:第二:信用,杠杆.风险:第三:为实体经济服务,不然就是泡沫,微观上讲就是经营风险.在经营风险的过程中,风险定价是核心,指对风险资产价格的确 ...

最新文章

  1. Java线程安全 关于原子性与volatile的试验
  2. python 文件操作 os.read() 方法 读文本文件 读取文字
  3. 从体验出发构建以增长为目标的视频服务体系
  4. efl是什么意思_efl
  5. Odoo10参考系列--Odoo指导方针
  6. 互联网的职场红利已经没了
  7. 14个非常有用的jquery技巧,注意事项和最佳实践
  8. OSI七层网络协议归纳
  9. c语言编程八卦方位,易经手掌八卦图,如何C语言编程画一个彩色的周易八卦图...
  10. 百度邓凯鹏:飞桨视觉技术解析与应用
  11. 矩阵标准型的系数是特征值吗_数据分析基础:特征值和特征向量
  12. Vue .sync 语法糖
  13. R语言sparse.model.matrix函数报错
  14. 手机低端市场,联发科 vs 高通
  15. h5调用支付宝 php支付源码,友价源码如何集成支付宝H5接口(即支付宝手机支付接口)...
  16. 【原创】flutter之发布插件包到pub.dev离线在线两套大法
  17. hihoCoder #1692 : 第K小分数
  18. 历史性一刻,中国航天器首次登上火星!!!
  19. 张益唐111页论文攻克朗道-西格尔零点猜想
  20. (一)java如何产生随机数

热门文章

  1. 636. 函数的独占时间
  2. octave存储文档
  3. 第三章CDMA的原理与应用(2)
  4. 大牛学习爬虫经验,转自知乎
  5. 【Codeforces Round #555 (Div. 3) G】Inverse of Rows and Columns【bitset优化暴力...】
  6. 基础集合论 第一章 4 子集
  7. WinPmem:跨平台内存采集工具
  8. 统计每个url访问的topN用户以及访问次数(sql)
  9. 225.队列实现栈 (力扣leetcode) 博主可答疑该问题
  10. 405.十六进制数 (力扣leetcode) 博主可答疑该问题