• 逻辑回归(Logistic Regression)

    • 针对因变量为分类变量而进行回归分析的一种统计方法,属于概率型非线性回归。

    • 优点:算法易于实现和部署,执行效率和准确度高;

    • 缺点:离散型的自变量数据需要通过生产虚拟变量的方式来使用;

(二)底层原理及逻辑

  • 在线性回归中,因变量是连续变量,那么线性回归能够根据因变量和自变量之间存在的线性关系来构造回归方程;但是,一旦因变量是分类变量,那么因变量与自变量就不会存在上面这种线性关系了,这时候就要通过某种变换来解决这个问题,这个变换就是对数变换;

  • 要理解对数变换,我们要先来学习一个函数Singmoid;

    • Singmoid函数又叫”S型”函数,在数据挖掘领域大量使用,它得图形是一个S形状,如下图所示:

  • 它得公式为:

  • 我们经常把它作为归一化的函数来使用,所谓归一化函数是指可以把连续数值,如上图X轴正无穷大到负无穷大的范围转化为0到1的范围,这就叫归一化;因此,S函数可以为我们提供了一种将连续型的数据离散化为离散型数据的方法;
  • 如果f(x)>0.5,那么我们可以把输入转换为1,如果f(x)<0.5,那么转换为0;

(三)案例实操-金融场景

1.场景介绍

  • 什么是金融场景中的信用风险?

    • 信用风险是指借款人、证券发行人或交易对手因某些原因不愿或无力履行合同而构成违约,使银行、投资者或交易对手遭受损失的可能性。信用风险还包括由于履约能力的变化引起的损失的可能性。因此信用风险的大小主要取决于客户的财务状况和风险状况。

2.痛点剖析

  • 互联网金融的痛点在于信用风险控制。很多金融平台没有相应资质或者经验,审查材料不严,导致大量资信不良的个人成功借贷,有些还是大数额的贷款。那么,针对这个痛点,可以利用逻辑回归模型得以解决,下面jacky就跟大家介绍如何利用该模型解决互联网金融信用风险问题,并用Python实现;

3.特征选择

(1) 因变量

  • 借贷人是否违约

    • 违约:0

    • 未违约:1

(2) 自变量

  • 违约记录

  • 借贷时间

  • 银行存款数额

  • 工作状态

  • 房贷情况

  • 个人财产

  • 年龄

  • 电话号码

  • 户口所在地

  • 购买金融产品的种类

4.代码实操

(1) 导入数据

#---author:朱元禄---
#导入数据
import pandas
data = pandas.read_csv('file:///Users/apple/Desktop/jacky_reinvest.csv',encoding='GBK'
)
#处理缺失值
data = data.dropna()
#查看数据规模
data.shape

(2) 数据预处理

  • 逻辑回归要求输入的数据是数值型的数据,因此我们要对离散数据进行虚拟数据的生成;

1)处理字符型与大小无关的字段

dummyColumns = ['工作状态','房贷情况','电话号码','户口所在地'
]
for column in dummyColumns:data[column]=data[column].astype('category')
dummiesData = pandas.get_dummies(data,columns=dummyColumns,prefix=dummyColumns,prefix_sep=" ",drop_first=True
)

2)调用Map方法进行可比较大小虚拟变量的转换

productDict={
'12个月定存':4,'6个月定存':3,'3个月定存':2,'1个月定存':1}
data['产品Map']=data['金融产品'].map(productDict)

(3) 挑选可以建模的变量(特征列)

  • 数据挖掘对数据和业务知识的理解是非常重要的;

  • 挑选特征列也是建模中最耗费精力的事情,特征变量需要一一比较,才能选择出来,在本案例中,jacky就简化处理了,毕竟是分享

dummiesSelect = ['jacky选取的特征列1','jacky选取的特征列2','...'
]
inputData = dummiesData[dummiesSelect]
outputData = dummiesData[['违约结论']]

(4) 建模求解回归方程

from sklearn import linear_model
lrModel = linear_model.LogisticRegression()

(5) 模型训练

lrModel.fit(inputData,outputData)

(6) 模型评估

lrModel.score(inputData,outputData)

(7) 使用模型预测未知参数

  • 因为逻辑回归输入的参数是通过虚拟变量进行预处理过的,因此我们要对新的数据进行预测,那么我们必须将我们的新数据使用训练样本的处理方法处理一次,才能作为逻辑模型的输入进行预测,只要依葫芦画瓢在重复写一次代码即可,这里jacky就不赘述了;

5.模型解读

本案例,jacky是使用真实案例做的分享,为了数据的保密性,具体结果展示就没法一一呈现了,但是,我会分享结果和模型的解读,对于数据建模的朋友来说,可能是有帮助的;

  • 正相关系数表示自变量越大,违约概率越小;负相关系数表示自变量越大,违约概率越大。下面逐一分析:

  • 1.违约记录:之前没有违约历史记录的客户更加有信用,在之后违约的可能性也比较小。之前有过信用卡逾期未还款、股票融资被平仓后没有归还欠款的客户,违约记录越多的客户,以后违约的可能性也比较大。

  • 2.借贷时间:借贷时间越长的客户,违约的概率越大。借贷时间越长,外在的经济环境和客户自身的资产负债情况的不可预知性越大,违约的概率也随之增加。
  • 3.银行存款数额:银行存款数额的大小,一定程度上反映了客户的财务状况,较好的财务状况表明了更好的偿贷能力,违约的可能性更小。
  • 4.工作状态:客户目前职业,收入对于客户的偿贷愿望都有着直接影响。如果一个客户有着良好的工作,稳定的收入,该客户的现金流更加容易预测,违约的几率也随之降低。
  • 5.房贷情况:这个比较复杂,一方面较高的房贷对于客户来说是财政负担,偿还其他贷款的能力有所降低;另一方面,如果有足够的公积金偿还房贷,又恰恰证明了其较高的收入,能够负担起其余的债务。
  • 6.个人财产:学区房、商业区等较高房价的住房可以作为借贷抵押。一般拥有这些住房的客户,资产较高,可以更好地承担债务。
  • 7.年龄:年龄较小的客户消费欲望强烈,收入不稳定,积蓄不多,更有违约的风险。年龄较大的客户一般都有明确的消费计划,收入稳定,有着较为丰厚的积蓄,性格也比较稳重,个人违约的意愿也比较小。
  • 8.电话号码:联系方式对信用方式有正的方式。且与登记手机号码的客户相比,登记座机号码的客户更加稳定;
  • 9.户口所在地:城市户口的客户一般收人较高,也比较稳定;农村户口的客户一般在城市打工或者在农村务农,收入无法得到切实的保障,遵守契约的意识也比较淡薄,违约可能性更大。

用逻辑回归模型解决互联网金融信用风险问题相关推荐

  1. 构建逻辑回归模型(某金融数据集)

    刚开通csdn博客 以下参考借鉴了各位优秀小伙伴的代码,感谢. 构建逻辑回归模型

  2. 互联网金融信用评分卡模型构建

    互联网金融信用评分卡模型构建 背景介绍 信用风险计量体系包括主体评级模型和债项评级两部分. 主体评级和债项评级均有一系列评级模型组成,其中主体评级模型可用"四张卡"来表示,分别是A ...

  3. logistic回归 简介_金融专业进!逻辑回归模型简述

    逻辑回归模型 逻辑回归属于机器学习中的较为经典的模型,在很多金融专业的实证部分都会用到逻辑回归.接下来分成以下几个部分对逻辑回归模型进行介绍. 1. 模型简介 逻辑回归中的"逻辑" ...

  4. 金融领域下的数据挖掘算法应用:逻辑回归模型

    摩天,用友旗下社会化的企业数智化学习认证社区,提供数智营销.智慧医疗.数智金融.智能制造.项目管理等精品课程,数智化人才上摩天!https://mot.yonyou.com/ 你将会学到: 股票客户流 ...

  5. 机器学习第四章之逻辑回归模型

    逻辑回归模型 4.1 逻辑回归模型算法原理 4.1.1 逻辑回归模型的数学原理(了解) 4.1.2 逻辑回归模型的代码实现(重要) 4.1.3 逻辑回归模型的深入理解 4.2 案例实战 - 股票客户流 ...

  6. 上可以替代mobaxterm_电能替代 | 基于逻辑回归模型的电能替代用户辨识研究

    [抢先看]<浙江电力>2020年第1期目录及重点关注文章 [抢先看]<浙江电力>2020年第2期目录及重点关注文章 征文 |"储能技术规模化应用技术"专题征 ...

  7. AI上推荐 之 逻辑回归模型与GBDT+LR(特征工程模型化的开端)

    1. 前言 随着信息技术和互联网的发展, 我们已经步入了一个信息过载的时代,这个时代,无论是信息消费者还是信息生产者都遇到了很大的挑战: 信息消费者:如何从大量的信息中找到自己感兴趣的信息? 信息生产 ...

  8. 【数据分析】业务分析中常见模型-波士顿矩阵、逻辑回归模型

    1 .逻辑回归模型:个性化推荐系统 个性化推荐系统是充分根据用户历史行为.地理位置.社交关系等推荐一些用户想要的个性化结果. 推荐的核心问题是如何发现用户对潜在商品的偏好,在用户没有明确意图的情况下, ...

  9. 逻辑回归模型小结--基于评分模型

    逻辑回归模型 一.优点和不足 二.对变量的要求 当用逻辑回归模型来构建评分模型时,入模变量需要满足以下条件: 1.变量间不存在较强的线性相关性和多重共线性.可在单变量分析和多变量分析过程中予以解决,删 ...

最新文章

  1. 【Java 注解】自定义注解 ( 元注解 )
  2. Android直播app用什么技术可以做到延迟小一些?
  3. Arithmetic Sequence 三分,货仓选址,nth_element,__int128(济南)
  4. Windows配置本地域名
  5. Intelli IDEA导入jar包
  6. 网易编程题-操作序列
  7. VUE 下载文件流 文件无法打开,缺失数据
  8. 人工智能入门——机器学习小案例(二)
  9. WSO2 IS 添加新的证书域名
  10. Since Due to Because of Because 的用法和区别
  11. 网易云信 UI 开发
  12. 游戏机械键盘哪个好,为什么资深玩家选择Hyperx游戏机械键盘?
  13. ZynqMP Vitis PS加载PL代码
  14. JavaApplication和JavaApplet的区别
  15. 【今日学长】来自柚子帮学长--留学生自用英语写作润色工具分享
  16. php中seq是什么意思,seq-answer
  17. mysql 存储过程参数数组_如何给存储过程,传一个数组参数?
  18. 《《《翻译》》》pointfusion三维包围盒
  19. C++11 获取系统时间库函数 time since epoch
  20. hbase应用场景和不适用的场景

热门文章

  1. mysql autocommit问题导致的gtid同步变慢
  2. 迭代器、生成器、面向过程编程思想
  3. 1020. 月饼 (25)
  4. 2017北京云栖大会:云效企业级协同研发专场议题揭秘!
  5. Windows 10 编程遥控 Ardunio
  6. html5 实现手机摇一摇功能(C)
  7. 工作那些事(十六)面试时,面试官喜欢的非技术问题汇总
  8. 版本发布后软件测试人员要做的工作
  9. 计算机进制转换图,计算机等级考试进制转换及常用函数
  10. Debug 和 Release 编译方式