零基础入门数据挖掘之金融风控-贷款违约预测
零基础入门数据挖掘之金融风控-贷款违约预测
- 摘要
- 1.数据概况
- 2.数据读取
- 3.分类指标评价计算
摘要
在实践中学,很高兴有这次机会,与志同道合的小伙伴一起学习,本次主要通过天池实际比赛项目学习数据挖掘相关理论知识及分析流程。本文主要内容:解赛题数据和目标,清楚评分体系。 [天池比赛地址:](https://tianchi.aliyun.com/competition/entrance/531830/introduction)
1.数据概况
说白了就是看看有多少数据,都有什么数据,那些字段,都是什么意思;然后充分理解赛题的业务目标,选择合适的方法进行分析,本赛题数据大概100多万,近50个字段,如果用监督学习要将样本分为训练集和测试集,通常按照8:2的比例进行拆分,比赛数据已经拆分好了,不用再次处理。
2.数据读取
读取数据文件,并查看数据基本情况
代码如下:
import pandas as pdtrain = pd.read_csv('train.csv') #读取文件
testA = pd.read_csv('testA.csv')print("train data shape:",train.shape) #查看数据大小,输出(行,列)
print("testA data shape:",testA.shape)pd.set_option('display.max_columns', None) # 显示所有列设置
#pd.set_option('display.max_rows', None)
train.head(10) #读取前10行数据,不传参默认显示前5行plot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
结果如下:
3.分类指标评价计算
分类算法常见的评估指标如下:
1、混淆矩阵(Confuse Matrix)
2、准确率(Accuracy)
3、精确率(Precision)
4、召回率(Recall)
5、F1 Score
6、P-R曲线(Precision-Recall Curve)
7、ROC(Receiver Operating Characteristic)
8、AUC(Area Under Curve)
对于金融风控预测类常见的评估指标如下:
1、KS(Kolmogorov-Smirnov)
2、ROC
3、AUC
各类评估指标实现代码如下:
## 1.计算并输出混淆矩阵
import numpy as np
from sklearn.metrics import confusion_matrix
y_pred = [0,1,0,1,1,0,1,1,1,1] #预测值
y_true = [0,1,1,0,0,0,1,0,0,1] #真实值
print('混淆矩阵:\n',confusion_matrix(y_true,y_pred))## 2.accuracy
from sklearn.metrics import accuracy_score
y_pred = [0,1,0,1]
y_true = [0,0,0,1]
print('ACC:',accuracy_score(y_true,y_pred))## 3.precision,Recall,F1-score
from sklearn import metrics
y_pred = [0,1,0,1,1,0,1,1,1,1]
y_true = [0,1,1,0,0,0,1,0,0,1]
print('precision',metrics.precision_score(y_true,y_pred))
print('Reall',metrics.recall_score(y_true,y_pred))
print('F1-score:',metrics.f1_score(y_true,y_pred))## 4.P-R曲线
import matplotlib.pyplot as plt
from sklearn.metrics import precision_recall_curve
y_pred = [0,1,1,0,1,1,0,1,1,1]
y_true = [0,0,0,0,1,0,1,1,1,0]
precision,recall,thresholds = precision_recall_curve(y_true,y_pred)
plt.plot(precision,recall)## 5.ROC 曲线
from sklearn.metrics import roc_curve
y_pred = [1,0,1,1,1,0,0,0,1,0]
y_true = [1,0,0,0,1,1,0,1,1,0]
FPR,TPR,thresholds = roc_curve(y_true,y_pred)
plt.title('ROC')
plt.plot(FPR,TPR,'b')
plt.plot([0,1],[0,1],'r--')
plt.ylabel('TPR')
plt.xlabel('FPR')
Text(0.5,0,'FPR')## 6.AUC
import numpy as np
from sklearn.metrics import roc_auc_score
y_true = np.array([0,1,1,1,0,0])
y_scores = np.array([0.1,0.5,0.45,0.75,0.8,0.3])
print('AUC score:',roc_auc_score(y_true,y_scores))## 7.KS值,在实际操作时往往使用ROC曲线配合求出KS值
from sklearn.metrics import roc_curve
y_pred = [1,0,0,0,1,0,1,1,0,1]
y_true = [0,1,1,1,0,0,0,0,0,1]
FPR,TPR,thresholds = roc_curve(y_true,y_pred)
KS = abs(FPR-TPR).max()
print('KS值',KS)
代码运行结果如下:
零基础入门数据挖掘之金融风控-贷款违约预测相关推荐
- 数据挖掘之金融风控-贷款违约预测 02数据分析
数据挖掘之金融风控-贷款违约预测 02数据分析 数据挖掘之金融风控-贷款违约预测 02数据分析 1. 学习目标 2. 学习内容 3. 学习过程 3.1 导入库并读取数据集 3.2 数据集基本信息 3. ...
- 笔记之零基础入门金融风控-贷款违约预测
零基础入门金融风控-贷款违约预测 赛题描述 赛题概况 数据概况 合理的创建标题,有助于目录的生成 预测指标 赛题流程 评分卡 笔记记录转载 赛题描述 赛题以金融风控中的个人信贷为背景,要求选手根据贷款 ...
- 零基础入门金融风控-贷款违约预测-机器学习-数据分析
零基础入门金融风控-贷款违约预测 一.赛题数据 赛题以预测用户贷款是否违约为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变 ...
- 零基础入门金融风控-贷款违约预测_Task1
贷款违约预测_Task1 零基础入门金融风控-贷款违约预测_Task1 数据概况 预测指标 零基础入门金融风控-贷款违约预测_Task1 数据概况 数据包含三部分:训练集(train.csv).测试集 ...
- 零基础入门金融风控-贷款违约预测-Task05——模型融合
有幸参加了阿里云举办的零基础入门金融风控-贷款违约预测训练营.收获颇多. 每天记录一些自己之前的知识盲点,需经常温习. 第五次的学习任务,是模型融合. 一.模型融合常用方法 模型融合有常用的如下六种方 ...
- 阿里天池零基础入门金融风控-贷款违约预测文本处理
阿里天池零基础入门金融风控-贷款违约预测文本处理 文本处理 日期处理 等级处理 就业年限处理 删除含有空值的行 数据归一化 踩坑 文本处理 日期处理 earliesCreditLine: 可以看到ea ...
- 数据挖掘实践(金融风控-贷款违约预测)(二):数据分析
数据挖掘实践(金融风控-贷款违约预测)(二):数据分析 目录 数据挖掘实践(金融风控-贷款违约预测)(二):数据分析 1.引言 2.基本知识点 2.1缺失值(Missing data) 2.1.1缺失 ...
- 数据挖掘实践(金融风控-贷款违约预测)(三):特征工程
数据挖掘实践(金融风控-贷款违约预测)(三):特征工程 目录 数据挖掘实践(金融风控-贷款违约预测)(三):特征工程 1.引言 2.特征预处理 2.1缺失值填充 2.2时间格式处理 2.3类别特征处理 ...
- 数据挖掘实践(金融风控-贷款违约预测)(五):模型融合
数据挖掘实践(金融风控-贷款违约预测)(五):模型融合 目录 数据挖掘实践(金融风控-贷款违约预测)(五):模型融合 1.引言 2.模型融合的方式 2.1 Voting/Averaging 2.2 B ...
最新文章
- python能在excel运行吗-使用PyXLL在Excel中执行Python脚本
- Scala 空返回值Unit
- Django的文件下载
- linux 打开网页 用curl_linux终端模拟浏览器访问(curl)
- go token验证_registry v2 解析以及如何实现token验证
- 在wp7中读取XML的配置文件,Content与Resource的区别
- 世界一流大学的计算机专业,在用哪些书当教材?
- datagridview使用mysql_使用DataGridView进行增删改查,并同步到数据库
- 程序员如何快速迁移 10 亿级数据?
- 8.26~8.30-广州软件所-实习工作日记
- WebService - RoadMap
- H264--编码原理以及I帧B帧P帧--1
- 实习测试的一个月总结与心得
- 多媒体计算机用什么音箱好,小巧又不失音质 桌面2.0电脑音箱推荐榜
- [Unity3d] [图文]【寻路】 Waypoint 与 NavMesh 比较(转)
- Delphi控件安装方法
- 逃生2计算机房出不来,逃生2无法走路/按键无反应解决方法
- JAVA消息(第一篇)JMS 很重要!!!!包教包会!!不闹!!!下一篇-AMQP(wire-level protocol)
- 遇到问题--python-- pandas--常见问题积累
- 顶点计划三——Process book
热门文章
- flutter - 强制横屏/竖屏
- python判断矩阵是否对称_矩阵的特征分解(推导+手算+python计算+对称矩阵的特征分解性质)...
- 从零到万的粉丝:抖音的推荐算法到底是怎样的?
- 高中计算机听课总结,信息技术听课心得.doc
- 5G通信技术书籍分享(持续更新)
- 锡育英语背单词软件v2019.04绿色版
- CDR X7 限时3折618年中大促,是时候出手了!
- Numpy学习之——numpy.mean中axis参数用法
- AI 也有音乐细胞,流行乐古典乐都难不倒它
- iOS安全防护---越狱检测、二次打包检测、反调试