数据导入与查看

# -*- coding: utf-8 -*-

# %%time

# from pyhive import presto

import pandas as pd

import numpy as np

import warnings

import os

data=pd.read_csv('*/全域风险.csv')

data.head(2)

# label= pd.DataFrame(list(result),columns=columns_names)

# label.to_csv('/data/ljk/baixin.csv',index=False)

数据筛选

data2=data[data['fina_date']

feature=['num_id','zhiye','weiyue','gongzhai','qingchang','zhuxing','lvyue','shouxin','xiaofei','xingqu','chengzhang']

data2=data2[feature]

data2.head()

scorecardpy Python包的使用

import scorecardpy as sc

import matplotlib.pyplot as plt

%matplotlib inline

plt.show()

bins_new=sc.woebin(data_new.loc[data_new.overdue!=-1,['zhiye','overdue']], y="overdue")

woebin_plot=sc.woebin_plot(bins_new)

woebin_plot

结果编辑

# data_new = data_new.drop(['flag','var_name'],axis=1)

merge_result_total = pd.DataFrame()

for cl in data_new.columns[1:]:

x=data_new[data_new[cl]>=0][cl]

if len(set(x))>=10:

value_bins=pd.qcut(x,5,duplicates='drop',retbins=True)[0]

data_new['flag']=value_bins #拦截点打标

data_new['var_name']= cl #变量

tmp = data_new[['var_name','flag','overdue']]

tmp.rename(columns={'overdue':'label'},inplace=True)

result_stp=tmp.groupby(['var_name','flag']).count() #拦截数

result_pos=tmp.groupby(['var_name','flag'])['label'].sum().to_frame() #黑样本

result_neg=tmp[tmp['label']==0].groupby(['var_name','flag'])['label'].count().to_frame() #白样本

merge_result=result_stp.merge(result_pos,how='left',on=['var_name','flag']).merge(result_neg,how='left',on=['var_name','flag'])

merge_result.reset_index(inplace=True)

merge_result.rename(columns={'label_x':'stp','label_y':'pos','label':'neg'},inplace=True)

merge_result['rank']=pd.Series([i+1 for i in range(merge_result.shape[0])])

merge_result.sort_values(by=['rank'],axis=0,ascending=True,inplace=True,na_position='last')

merge_result['cunsum_pos']=merge_result.groupby('var_name')['pos'].cumsum()

merge_result['cunsum_neg']=merge_result.groupby('var_name')['neg'].cumsum()

merge_result['cunsum_stp']=merge_result.groupby('var_name')['stp'].cumsum()

merge_result['total_pos']=merge_result[merge_result['rank']== merge_result.shape[0]]['cunsum_pos'].values[0]

merge_result['total_neg']=merge_result[merge_result['rank']== merge_result.shape[0]]['cunsum_neg'].values[0]

merge_result['total_stp']=merge_result[merge_result['rank']== merge_result.shape[0]]['cunsum_stp'].values[0]

res = merge_result

res['intercept']=res['stp']/res['total_stp'] # 区间拦截率

res['precision']=res['pos']/res['stp'] # 准确率

res['recall']=res['pos']/res['total_pos'] #召回率

res['Disturb']=res['neg']/res['total_neg'] #打扰率

res['cum_precision']=res['cunsum_pos']/res['cunsum_stp'] # 累计准确率

res['avg_precision']=res['total_pos']/res['total_stp']

res['cum_recall']=res['cunsum_pos']/res['total_pos'] # 累计召回率

res['cum_Disturb']=res['cunsum_neg']/res['total_neg'] # 累计打扰率

res['ks']=res['cum_recall']-res['cum_Disturb']

res['ks_max']=res.groupby('var_name')['ks'].max().values[0]

rs=res.drop_duplicates(subset=None, keep='first', inplace=False) #去重

merge_result_total = merge_result_total.append(rs)

merge_result_total.rename(columns={'var_name':'变量','flag':'拦截区间','stp':'拦截样本数','pos':'黑样本数','neg':'白样本数','cunsum_pos':'累计黑样本数','cunsum_neg':'累计白样本数','cunsum_stp':'累计拦截数','intercept':'拦截率','precision':'准确率','recall':'召回率','Disturb':'打扰率','cum_precision':'累计准确率','avg_precision':'平均准确率','cum_recall':'累计召回率','cum_Disturb':'累计打扰率','ks':'ks区间值','ks_max':'ks值','total_pos':'总黑样本','total_neg':'总白样本','total_stp':'总样本'},inplace=True)

merge_result_total.to_csv('*/quanyumob3_result0421.csv',header=True,index=False)

merge_result_total

ks曲线函数

调用方法

ks=PlotKS(data_new3['zhiye'],data_new3['overdue'],n=20,asc=True)

ks

plt.show

import pandas as pd

import matplotlib.pyplot as plt

####################### PlotKS ##########################

def PlotKS(preds, labels, n=20, asc=True):

# preds is score: asc=1

# preds is prob: asc=0

pred = preds # 预测值

bad = labels # 取1为bad, 0为good

ksds = pd.DataFrame({'bad': bad, 'pred': pred})

ksds['good'] = 1 - ksds.bad

if asc == 1:

ksds1 = ksds.sort_values(by=['pred', 'bad'], ascending=[True, True])

elif asc == 0:

ksds1 = ksds.sort_values(by=['pred', 'bad'], ascending=[False, True])

ksds1.index = range(len(ksds1.pred))

ksds1['cumsum_good1'] = 1.0*ksds1.good.cumsum()/sum(ksds1.good)

ksds1['cumsum_bad1'] = 1.0*ksds1.bad.cumsum()/sum(ksds1.bad)

if asc == 1:

ksds2 = ksds.sort_values(by=['pred', 'bad'], ascending=[True, False])

elif asc == 0:

ksds2 = ksds.sort_values(by=['pred', 'bad'], ascending=[False, False])

ksds2.index = range(len(ksds2.pred))

ksds2['cumsum_good2'] = 1.0*ksds2.good.cumsum()/sum(ksds2.good)

ksds2['cumsum_bad2'] = 1.0*ksds2.bad.cumsum()/sum(ksds2.bad)

# ksds1 ksds2 -> average

ksds = ksds1[['cumsum_good1', 'cumsum_bad1']]

ksds['cumsum_good2'] = ksds2['cumsum_good2']

ksds['cumsum_bad2'] = ksds2['cumsum_bad2']

ksds['cumsum_good'] = (ksds['cumsum_good1'] + ksds['cumsum_good2'])/2

ksds['cumsum_bad'] = (ksds['cumsum_bad1'] + ksds['cumsum_bad2'])/2

# ks

ksds['ks'] = ksds['cumsum_bad'] - ksds['cumsum_good']

ksds['tile0'] = range(1, len(ksds.ks) + 1)

ksds['tile'] = 1.0*ksds['tile0']/len(ksds['tile0'])

qe = list(np.arange(0, 1, 1.0/n))

qe.append(1)

qe = qe[1:]

ks_index = pd.Series(ksds.index)

ks_index = ks_index.quantile(q = qe)

ks_index = np.ceil(ks_index).astype(int)

ks_index = list(ks_index)

ksds = ksds.loc[ks_index]

ksds = ksds[['tile', 'cumsum_good', 'cumsum_bad', 'ks']]

ksds0 = np.array([[0, 0, 0, 0]])

ksds = np.concatenate([ksds0, ksds], axis=0)

ksds = pd.DataFrame(ksds, columns=['tile', 'cumsum_good', 'cumsum_bad', 'ks'])

ks_value = ksds.ks.max()

ks_pop = ksds.tile[ksds.ks.idxmax()]

print ('ks_value is ' + str(np.round(ks_value, 4)) + ' at pop = ' + str(np.round(ks_pop, 4)))

# chart

plt.plot(ksds.tile, ksds.cumsum_good, label='cum_good',

color='blue', linestyle='-', linewidth=2)

plt.plot(ksds.tile, ksds.cumsum_bad, label='cum_bad',

color='red', linestyle='-', linewidth=2)

plt.plot(ksds.tile, ksds.ks, label='ks',

color='green', linestyle='-', linewidth=2)

plt.axvline(ks_pop, color='gray', linestyle='--')

plt.axhline(ks_value, color='green', linestyle='--')

plt.axhline(ksds.loc[ksds.ks.idxmax(), 'cumsum_good'], color='blue', linestyle='--')

plt.axhline(ksds.loc[ksds.ks.idxmax(),'cumsum_bad'], color='red', linestyle='--')

plt.title('KS=%s ' %np.round(ks_value, 4) +

'at Pop=%s' %np.round(ks_pop, 4), fontsize=15)

return ksds

python风控工具_python-风控模型分析01相关推荐

  1. python信用评分卡_基于Python的信用评分卡模型分析(二)

    上一篇文章基于Python的信用评分卡模型分析(一)已经介绍了信用评分卡模型的数据预处理.探索性数据分析.变量分箱和变量选择等.接下来我们将继续讨论信用评分卡的模型实现和分析,信用评分的方法和自动评分 ...

  2. python 神经网络工具_python神经网络工具箱

    盘点·GitHub最著名的20个Python机器学习项目 我们分析了GitHub上的前20名Python机器学习项目,发现scikit-Learn,PyLearn2和NuPic是贡献最积极的项目.让我 ...

  3. linux下python开发工具_Python开发工具 Wing IDE

    Wing IDE是一个Python语言的IDE,其中包括大量语法标签的高亮显示.与其他类似的IDE相比,Wing IDE最大的特色是可以调试django应用. Wing IDE是个相当优秀的 IDE: ...

  4. python版本管理工具_Python版本管理工具与虚拟环境的介绍

    这里简单的介绍一下Python版本管理工具--pyenv和三个个虚拟环境,分别是virtualenv,anconda,pipenv. 版本管理工具--pyenv 这个呢是一个python版本管理的包, ...

  5. python代码覆盖率工具_Python代码覆盖率分析工具Coverage

    简介 在测试中,为了度量产品质量,代码覆盖率被作为一种测试结果的评判依据,在Python代码中用来分析代码覆盖率的工具当属Coverage.代码覆盖率是由特定的测试套件覆盖被测源代码的程度来度量,Co ...

  6. python音频分析工具_python – 鸟鸣音频分析 – 查找两个剪辑的匹配程度

    要做出这个答案,因为评论太久了. 我基本上在这个领域工作,所以我觉得我有一些知识.显然,从我的立场来看,我建议使用音频而不是图像.我还建议使用MFCC作为特征提取(您可以将其视为总结/表征音频特定子带 ...

  7. 基于Python的信用评分卡模型分析

    目录 一.项目流程 二.数据获取 三.数据预处理 3.1 缺失值处理 3.2 异常值处理 3.3 数据切分 信用风险计量体系包括主体评级模型和债项评级两部分.主体评级和债项评级均有一系列评级模型组成, ...

  8. python语言模型工具_Python工具整合,为程序员和新手准备的 8 大 Python 工具

    Python 是一种开源编程语言,用于 Web 编程.数据科学.人工智能和许多科学应用.学习 Python 使程序员能够专注于解决问题,而不是专注于语法,其丰富的库赋予它完成伟大任务所需的力量. 1) ...

  9. python相关性分析函数_python实现相关性分析

    从网上记录的一篇如何用python实现相关性分析的文章 ,先摘录,我再一一实现. 概述 在我们的工作中,会有一个这样的场景,有若干数据罗列在我们的面前,这组数据相互之间可能会存在一些联系,可能是此增彼 ...

最新文章

  1. java silk转mp3_微信小程序录音文件格式silk遇到的问题及解决方法
  2. Codeforces Round #554 (Div. 2) C. Neko does Maths (简单推导)
  3. Ubuntu下搭建NFS,并在开发板挂载
  4. ASP.NET MVC 4 (十) 模型验证
  5. EasyDSS高性能RTMP、HLS(m3u8)、HTTP-FLV、RTSP流媒体服务器出现no compatible source was found for this media问题的解决...
  6. python守护线程错误 退出子线程_请问用python里threading和queue模块来写多线程程序,子线程是如何结束的?...
  7. thinkphp mysql cache_thinkPHP5框架数据库连贯操作之cache()用法分析
  8. 万字好文 | 数字化转型之道——数据治理体系能力提升
  9. pythonfor循环输入_Python之for循环的使用
  10. 设置cookie,跨域取值
  11. by mybatis 自定义order_springboot2结合mybatis拦截器实现主键自动生成
  12. 【web开发】☆★之利用POI操作Excel表格系列教程【6】遍历工作簙行和列取值
  13. CTO 说了,如果发现谁用 SELECT * 查询直接开除
  14. JavaScript编程用法——JavaScript运行环境
  15. 基于ssm宠物医院管理系统获取(java毕业设计)
  16. 如何看药博士系统服务器的站点,药博士系列管理软件
  17. 了解算法交易,此篇足矣
  18. Python——类的继承
  19. 使用清华镜像安装pytorch
  20. Geforce 错误代码 ERROR CODE:0x0003问题方法

热门文章

  1. loadrunner 错误: 无法找到 java.exe_LoadRunner错误及解决方法总结
  2. php项目实战流程_一个完整的php流程管理实例代码分享
  3. mysql找不到performance_Mysql安装完毕运行时没有mysql和performance_schema数据库_MySQL
  4. html 百分比正方形,css实现未知宽度的正方形需求
  5. Ubuntu18.04安装最新版Docker
  6. linux 调优系列(续)
  7. 在加拿大读大学被开除了,以后该怎么办?
  8. PHPStudy下Apache SSL证书安装教程 1
  9. 怎样解决Word文档图标无法正常显示的问题?
  10. Shell中的while循环