python信用评分卡(附代码,博主录制)

https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

核心

正态分布+逻辑回归+Fico建模

数据清洗(正则表达式)

获取外部数据(政府公开信用数据,外购征信数据)

谨慎大数据黑天鹅事件,对历史数据权重处理

信用评分 人数百分比 累计百分比 违约率
300~499 2% 2% 87%
500~549 5% 7% 71%
550~599 8% 15% 51%
600~649 12% 27% 31%
650~699 15% 42% 15%
700~749 18% 60% 5%
750~799 27% 87% 2%
800~850 13% 100% 1%

http://www.21jingji.com/2017/7-29/wMMDEzODBfMTQxNDUwMA.html

http://www.cnblogs.com/nxld/p/6364341.html

揭秘银行信用贷款风控术:风险评分模型成逆袭关键

风险评分
信用评分体系:评分系统包括个人信用记录、个人财产与收入水平等评分

内部数据来自银行掌握的个人履约能力、社交活动、行为偏好、银行关系、信息齐全等;
外部数据来自第三方传统征信、第三方互联网征信、公安系统和电信数据等。

21世纪经济报道记者获悉,国内商业银行的信用评分系统大多借鉴美国FICO评分系统,该系统根据信用偿还历史(35%)、欠款金额(30%)、信用历史时长(15%)、信贷产品组合(10%)和新开立信用账户(10%)等指标进行评分。

对于信用评分,“不是说评分越高,那么给你的相应的额度就会越高。”该风控人士表示,只能说比较重视。

数据清洗是风控模型的前提

信用评分的背后,则是风控模型。

一位消费金融高管表示,从风险模型来讲,银行发行信用卡需要填写各种资料,比较繁琐,审批需要人工、电核,后来演变到线上。“关键是我们用什么方式让这些尽量少得麻烦客户,尽量准确地挡住欺诈人群。”其中,“要把握一个平衡的问题,风险成本不是说把握得越严,风险损失就越小,否则就没有利润。”

我们放贷款的风控中,最大的挑战是防欺诈,信用风险倒在其次。”一位城商行零售总监表示,信贷业务主要通过线下进行,审批环节会筛掉10%的客户。最终还会通过模糊搜索模型再次筛选客户。

前述资深风控人士认为,“从国外经验看,目前风控仍然是经验驱动数据,而且数据的技术含量不低于风控模型。”而实际上,目前国内金融机构过度重视风控模型,对于数据质量的重视程度不够。

在风控模型设计中,“FICO标准流程中,数据清洗就有12个步骤,甚至是风控负责人来做数据整理工作。”他表示,否则模型会存在过拟合问题,将指标放入风控模型结果很好,但在生产过程中不稳定。

对于数据来源,前述高管表示,金融机构不是平台性企业,其实数据链是断的。有的地方多一点,有的地方少一点,饱和度不太一样。要得到完整的客户的风险的画像,还是要多方的数据来源来拼合。

美国FICO评分系统简介

美国的个人信用评分系统,主要是Fair IsaacCompany 推出的 FICO,评分系统也由此得名。一般来讲, 美国人经常谈到的你的得分 ,通常指的是你目前的FICO分数。而实际上, Fair Isaac 公司开发了三种不同的FICO 评分系统 ,三种评分系统分别由美国的三大信用管理局使用评分系统的名称也不同。

信用管理局名称 FICO 评分系统名称
Equifax BEACON*
Experian ExperianPFair Isaac Risk Model
TransUnion FICO Risk Score, Classic

Fair Isaac 公司所开发的这三种评分系统使用的是相同的方法, 并且都分别经过了严格的测试。即使客户的历史信用数据在三个信用管理局的数据库中完全一致, 从不同的信用管理局的评分系统中得出的信用得分也有可能不一样, 但是相差无几。

      fico评分系统全球分布图

FICO 评分系统得出的信用分数范围在300- 850分之间。分数越高, 说明客户的信用风险越小。但是分数本身并不能说明一个客户是好还是坏,贷款方通常会将分数作为参考, 来进行贷款决策。每个贷款方都会有自己的贷款策略和标准, 并且每种产品都会有自己的风险水平, 从而决定了可以接受的信用分数水平。一般地说, 如果借款人的信用评分达到680 分以上, 贷款方就可以认为借款人的信用卓著,可以毫不迟疑地同意发放贷款。如果借款人的信用评分低于620 分, 贷款方或者要求借款人增加担保, 或者干脆寻找各种理由拒绝贷款。如果借款人的信用评分介于620- 680 分之间, 贷款方就要作进一步的调查核实, 采用其它的信用分析工具, 作个案处理。目前, 美国的信用分数分布状况见图1。FICO 评分主要用于贷款方快速、客观的度量客户的信用风险, 缩短授信过程。FICO 评分在美国应用的十分广泛, 人们能够根据得分, 更快地获得信用贷款, 甚至有些贷款, 可以直接通过网络申请, 几秒钟就可以获得批准, 缩短了交易时间, 提高了交易效率, 降低了交易成本。信用评分系统使用, 能够帮助信贷方做出更公正的决策, 而不是把个人偏见带进去, 同时, 客户的性别、种族、宗教、国籍和婚姻状况等因素, 都对信用评分没有任何影响, 保证了评分的客观公正性。在评分系统中, 每一项信用信息的权重不同, 越早的信用信息, 对分数的影响越小 
  FICO 评分系统得出的信用分数范围在300-850 分之间分数越高, 说明客户的信用风险越小,但是分数本身并不能说明一个客户是好还是坏,贷款方通常会将分数作为参考, 来进行贷款决策,每个贷款方都会有自己的贷款策略和标准。

信用评分 人数百分比 累计百分比 违约率
300~499 2% 2% 87%
500~549 5% 7% 71%
550~599 8% 15% 51%
600~649 12% 27% 31%
650~699 15% 42% 15%
700~749 18% 60% 5%
750~799 27% 87% 2%
800~850 13% 100% 1%

从上表中可以看到两个规律:一是信用评分特别低和特别高的人占比都较少,大多数信用评分中等,大体呈现为左偏态的正态分布;二是信用评分分值越高,违约率越低。这个就是信用评分的核心价值所在,可以根据信用评分的高低进行诸如是否发放、贷款额度、是否需要抵押等重要决策。每种产品都会有自己的风险水平, 从而决定了可以接受的信用分数水平。一般地说, 如果借款人的信用评分达到 680分以上, 贷款方就可以认为借款人的信用卓著可以毫不迟疑地同意发放款如果借款人的信用评分低于,620分 贷款方或者要求借款人增加担保, 或者干脆寻找各种理由拒绝贷款。如果借款人的信用评分介于620-680 分之间, 贷款方就要作进一步的调查核实, 采用其它的信用分析工具 ,作个案处理。 
  FICO 评分模型中所关注的主要因素有五类, 分别是客户的信用偿还历史、信用账户数、使用信用的年限、正在使用的信用类型、新开立的信用账户。

(一) 信用偿还历史 
       影响FICO得分的最重要的因素是客户的信用偿还历史 ,大约占总影响因素的35%支付历史主要显示客户的历史偿还情况, 以帮助贷款方了解该客户是否存在历史的逾期还款记录 ,主要包括: 
  (1) 各种信用账户的还款记录 ,包括信用卡( 例如 Visa Master Card American Express Discover) 、零售账户(直接从商户获得的信用) 、分期偿还贷款、金融公司账户、抵押贷款。 
  (2) 公开记录及支票存款记录, 该类记录主要包括破产记录、丧失抵押品赎回权记录、法律诉讼事件、留置权记录及判决。涉及金额大的事件比金额小的对FICO 得分的影响要大, 同样的金额下, 越晚发生的事件要比早发生的事件对得分的影响大。一般来讲, 破产信息会在信用报告上记录7-10 年. 
  (3) 逾期偿还的具体情况, 包括, 逾期的天数、未偿还的金额、逾期还款的次数和逾期发生时距现在的时间长度等。例如, 一个发生在上个月的逾期天的记录对FICO 得分的影响会大于一个发生在 年前的逾期90 天的记录。据统计, 大约有不足,50%的人有逾期30天还款的记录, 大约只有30%的人有逾期 天60以上还款的记录. 而77%的人从来没有过逾期 90天以上不还款的 仅有低于20%的人有过违约行为而被银行强行关闭信用账户 
  

      最近几个月的重大违约

  
  (二) 信用账户数 
  该因素仅次于还款历史记录对得分的影响 占总影响因素的30%,对于贷款方来讲 ,一个客户有信用账户需要偿还贷款 ,并不意味着这个客户的信用风险高。相反地 ,如果一个客户有限的还款能力被用尽, 则说明这个客户存在很高的信用风险 ,有过度使用信用的可能 ,同时也就意味着他具有更高的逾期还款可能性。该类因素主要是分析对于一个客户, 究竟多少个信用账户是足够多的 ,从而能够准确反应出客户的还款能力。

      总余额在循环账户总限额比


  ( 三) 使用信用的年限 
  该项因素占总影响因素的15%。一般来讲 ,使用信用的历史越长, 越能增加FICO 信用得分。该项因素主要指信用账户的账龄,既考虑最早开立的账户的账龄 ,也包括新开立的信用账户的账龄 ,以及平均信用账户账龄。据信用报告反映 ,美国最早开立的信用账户的平均账龄是14 年,超,25%的客户的信用历史长于20年, 只有不足5%的客户的信用历史小于2 年 
  ( 四) 新开立的信用账户 
  该项因素占总影响因素的10%,。在现今的经济生活中, 人们总是倾向于开立更多的信用账户, 选择信用购物的消费方式, FICO 评分系统也将这种倾向体现在信用得分中。据调查 ,在很短时间内开立多个信用账户的客户具有更高的信用风险 ,尤其是那些信用历史不长的人。该项因素主要包括 
  (1) 新开立的信用账户数, 系统将记录客户新开立的账户类型及总数 ; 
  (2) 新开立的信用账户账龄; 
  (3) 目前的信用申请数量 ,该项内容主要由查询该客户信用的次数得出, 查询次数在信用报告中只保存两年; 
  (4) 贷款方查询客户信用的时间长度 
  (5) 最近的信用状况, 对于新开立的信用账户及时还款, 会在一段时间后, 提高客户的FICO 得分 
  ( 五) 正在使用的信用类型 
  该项因素占总影响因素的10%。 主要分析客户的信用卡账户、零售账户、分期付款账户、金融公司账户和抵押贷款账户的混合使用情况 ,具体包括 :持有的信用账户类型和每种类型的信用账户数 
  主要参考文献 
1、http://www.yinhang.com/a_2014_0402_197987.html 
2、http://www.docin.com/p-63842901.html

芝麻信用与FICO评分的差异

FICO评分是Fair Isaac公司开发的信用评分系统,也是目前美国应用得最广泛的一种。FICO评分系统得出的信用分数范围在300~850分之间,分数越高,说明客户的信用风险越小,它采集客户的人口统计学信息、历史贷款还款信息、历史金融交易信息、人民银行征信信息等,通过逻辑回归模型计算客户的还款能力,预测客户在未来一年违约的概率:

1. 人口统计学信息:如客户年龄、家庭结构、住房情况、工作类别及时间等;

2. 历史贷款还款信息:即过去6个月或12个月的付款方式、逾期次数等;

3. 历史金融交易信息:即过去6个月或12个月的平均月交易笔数、金额等;

4. 银行征信信息:如过去12个月中新开的账户总数、所有账户的总额度、账户是否逾期等。

看,以上这些信息都是FICO评分模型的自变量,最终会通过逻辑回归模型输出最终分数

阿里巴巴推出的芝麻信用分则是以大数据分析技术为基础,采集多元化数据,包括传统的金融类交易、还款数据,第三方的非金融行为数据,互联网、移动网络和社交网络数据等,帮助贷款方从多个方面考察个体的还款能力、还款意愿,做出合理、全面的信用评分。

大数据风控的现状、问题及优化路径(总结侯畅、唐时达文章)

一、大数据风控发展迅速

(一)国外案例

Zest Finance公司开发10个基于机器学习的分析模型,1万条原始信息,7万个特征变量,5秒内完成。

Kabbage公司通过获取企业网店店主的销售、信用记录、顾客流量、评论、商品价格和存货等信息、以及在Facebook和Twitter上与客户的互动信息,借助数据挖掘技术,把这些店主分成不同的风险等级,以此来确定提供贷款金额数量与贷款利率水平。

(二)国内案例

阿里面向社会的信用服务体系芝麻信用,通过分析大量的网络交易及行为数据吗,对用户进行信用评估。

腾讯的微众银行推出“微粒贷”,风控核心通过社交数据与央行征信等传统银行信用数据结合,运用社交圈、行为特征、交易、基本社会特征、人行征信5个维度对客户综合评级,运用大量的指标构建多重模型,以快速识别客户的信用风险。

二、当前大数据有效性欠佳的原因

(一)数据的质量问题

1.社交数据的真实性问题

Lending club 、facebook合作、宜信尝试后,结论社交数据不可用

(二)交易数据的真实性问题

刷单

三、大数据风控的理论有效性问题

从IT技术层面论证大数据风控的实践性案例已经很多,但是在经济金融的理论层面、大数据风控还面临一些问题需要解决。

(一)金融信用与社会信用的相关性不确定

线上与线下行为方式反差强烈

(二)大数据对于“黑天鹅”事件的滞后性

(三)大数据收集和使用的制度问题

四、提高大数据风控有效性的路径

(一)对于金融企业而言,要构建多样化、连续化和实时性的基础数据

1.多维度的收集数据,互联互通,打破数据的孤岛。

2.从供应链交易环节获取数据。

3.积极布局“物联网+”

获取生产环节和使用环节的数据,如企业机器运行数据

(二)对于金融研究部门而言,可从经济、金融等多个角度综合论证大数据风控的有效性,为大数据风控提供理论支持

如大数据风控如何顺应经济周期的变化,如何从统计上论证过去的数据对于未来行为判断的准确性,如何解决道德风险所带来的不确定性。

(三)对于政府监管部门而言,要推动和完善与数据相关的制度建设

1.法律制度的建设,对数据的收集和使用予以法律上的保护

《个人信息保护法》

2.会计制度建设,对数据资产予以明确的计量

https://study.163.com/course/courseMain.htm?courseId=1005988013&share=2&shareId=400000000398149(博主录制,2K超清分辨率)

转载于:https://www.cnblogs.com/webRobot/p/8108273.html

风控模型-美国FICO标准相关推荐

  1. 金融风控模型开发SOP(标准操作流程)-收藏

    平衡各方利益的模型才是最好模型 -Toby!2022 07 07 各位朋友大家好,我是Toby老师.之前有很多风控朋友咨询如何搭建风控模型.今天我抛砖引玉为大家讲述金融风控模型开发SOP(标准操作流程 ...

  2. 一文看懂风控模型所有

    [与数据同行]已开通综合.数据仓库.数据分析.产品经理.数据治理及机器学习六大专业群,加微信号frank61822702 为好友后入群.新开招聘交流群,请关注[与数据同行]公众号,后台回复" ...

  3. 信贷风控模型开发----模型简介

    第一章 风控模型简介 1.1 为什么要建模 1.2 什么是信用评分 1.3 常用的模型 1.4 概念解析:M0,M1,M2的定义 下一章预告 参考文献 第一章 风控模型简介 本系列文章为笔者对信贷风控 ...

  4. 如何“谨慎”使用“数据驱动”的风控模型(二)——决策篇

    上一篇,笔者介绍了谨慎使用"数据驱动"的风控模型,需要"高质量的数据 + 审慎严谨的决策模型 + 实时全面的监控分析"动态闭环.本篇笔者会着力于介绍整个风控决策 ...

  5. 风控模型师面试准备--技术篇(逻辑回归、决策树、集成学习)

    原文地址:https://zhuanlan.zhihu.com/p/56175215 编辑于2019-02-12,持续更新中,有风控建模工作经验的,或者想转行风控建模的小伙伴可以互相交流下... 一. ...

  6. 如何浅显得理解风控模型中的特征筛选|附实操细节(全)

    今天我们综合了星球同学的一些需求,给大家梳理了这样一篇风控建模中特征筛选,希望对所有的风控人员在模型开发上都有所启发. 本文,我们会跟大家介绍特征选择的内容,包括其中的重点问题跟注意的细节. 因为完整 ...

  7. 风控模型师面试准备--技术篇

    转载:https://zhuanlan.zhihu.com/p/56175215 一.算法 逻辑回归 决策树 集成学习(随机森林,Adaboost,GBDT,XGBOOST,LightGbm) 二.特 ...

  8. STEM课程经典 | 美国小学标准教材1-5级套装,超过40州使用,让孩子在小学掌握科学思维...

    <美国科学>系列是美国小学标准科学教材,全美共40多个州正在使用.这套教材基于美国科学教育标准(National Science Education Standards,简称NSES)编写 ...

  9. 【金融干货】四步教你:开发风控模型?

    一.市场调研 目前市面主流的风控模型 1.互联网金融前10名排行榜(数据截止日期2017-09-12) 互联网金融公司排名分别是蚂蚁金服.陆金所.京东金融.苏宁金融.百度金融.腾讯理财通.宜信.钱大掌 ...

最新文章

  1. 80%的Android手机用户面临浏览器安全风险
  2. c mysql批量添加数据类型_mybatis学习之路----mysql批量新增数据
  3. C语言const专题
  4. 使用Hyper-v 创建Windows Server 2008 Cluster(二)
  5. 三杯茶(一本令全世界为之动容的书)(Three cups of tea)
  6. CSS基础笔记(w3school)
  7. 推荐几个常用的生物通路数据库
  8. 服务器信号怎么设置好,手机这样设置,WIFI信号马上提高!
  9. [论文阅读] BCNet: Bidirectional collaboration network for edge-guided salient object detection
  10. [51单片机] SPI nRF24L01无线 [可以放在2个单片机里实现通信]
  11. loopback-detection(环路检测)
  12. 光纤传感技术:基于Matlab的OFDR系统数值仿真
  13. 怎么样才可以?批量下载快手播主的全部视频?
  14. php工程师外派,招聘兼职Php工程师|Php工程师外包-猿急送
  15. Mysql拼接查询结果
  16. java1.8 Lambda拉姆达表达式深入探究
  17. ListView制作简单表格
  18. python爬取58同城所有租房信息_python爬虫:找房助手V1.0-爬取58同城租房信息
  19. 硬核!用Arduino打造纯机械装置模拟数字时钟
  20. C++ 解决rand()函数生成的随机数每次都一样的问题

热门文章

  1. pycharm 注释
  2. 内容型平台运营的底层逻辑方法论
  3. Selinux是什么,有啥用,如何关闭和开启
  4. vim 粘贴时取消自动换行
  5. 布匹瑕疵检测数据集EDA分析
  6. Yikesnews第17期: Joomla!3.7.0注入漏洞||新勒索软件 - UIWIX||黑客已将加勒比海盗5公开...
  7. 第1章 计算机基础知识信息,kj1第1章信息与计算机基础知识.ppt
  8. grep查找多个关键字
  9. PLC NAND 虽来但远
  10. layDate开始时间和结束时间