python计算iv值_大数据技术 python计算IV值及使用
本篇教程探讨了大数据技术 python计算IV值及使用,希望阅读本篇文章以后大家有所收获,帮助大家对大数据技术的理解更加深入。
<
在对变量分箱后,需要计算变量的重要性,IV是评估变量区分度或重要性的统计量之一,python计算IV值的代码如下:
def CalcIV(Xvar, Yvar):
N_0 = np.sum(Yvar==0)
N_1 = np.sum(Yvar==1)
N_0_group = np.zeros(np.unique(Xvar).shape)
N_1_group = np.zeros(np.unique(Xvar).shape)
for i in range(len(np.unique(Xvar))):
N_0_group[i] = Yvar[(Xvar == np.unique(Xvar)[i]) & (Yvar == 0)].count()
N_1_group[i] = Yvar[(Xvar == np.unique(Xvar)[i]) & (Yvar == 1)].count()
iv = np.sum((N_0_group/N_0 - N_1_group/N_1) * np.log((N_0_group/N_0)/(N_1_group/N_1)))
return iv
def caliv_batch(df, Kvar, Yvar):
df_Xvar = df.drop([Kvar, Yvar], axis=1)
ivlist = []
for col in df_Xvar.columns:
iv = CalcIV(df[col], df[Yvar])
ivlist.append(iv)
names = list(df_Xvar.columns)
iv_df = pd.DataFrame({‘Var‘: names, ‘Iv‘: ivlist}, columns=[‘Var‘, ‘Iv‘])
return iv_df
其中,df是分箱后的数据集,Kvar是主键,Yvar是y变量(0是好,1是坏)。
本文由职坐标整理发布,学习更多的大数据技术相关知识,请关注职坐标大技术云计算大技术技术频道!
python计算iv值_大数据技术 python计算IV值及使用相关推荐
- python大数据技术_大数据技术python
{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],&q ...
- 计算map代码_大数据系列之计算框架MapReduce
CDA数据分析师 出品 1. MapReduce计算框架简介 Mapreduce 是hadoop项目中的分布式运算程序的编程框架,是用户开发"基于hadoop的数据分析应用"的核心 ...
- 大数据开发和python的区别_大数据技术和python开发工程师
容易来说,从大数据的生命周期来看,无外乎四个方面:大数据采集.大数据预处理.大数据存储.大数据分析,共同组成了大数据生命周期里最核心的技术,下面分开来说: 一.大数据采集 大数据采集,即对各种来源的结 ...
- python2 json大数据_大数据技术之python 操作json
本篇文章探讨了大数据技术之python 操作json,希望阅读本篇文章以后大家有所收获,帮助大家对相关内容的理解更加深入. #!/usr/bin/env python import json s = ...
- python在土木工程中的应用_大数据技术及其在土木工程中的应用
朱之宇 黄程 摘要:随着科技的不断发展,互联网技术的不断革新,信息化时代的到来,各种信息的处理更是十分的复杂,但是随着大数据技术的出现,信息处理的速度和能力变得更强大,一方面大数据能够广泛的应用于各行 ...
- python判断题题库大数据技术_智慧树_大数据分析的python基础_搜题公众号
智慧树_大数据分析的python基础_搜题公众号 更多相关问题 社会公众可以查阅烟草专卖行政主管部门的监督检查记录.() 公民.法人或者其他组织不得利用自动售货机销售烟草制品.() 烟草广告中不得有下 ...
- python消费kafka逻辑处理导致cpu升高_大数据技术之一次KAFKA消费者异常引起的思考...
本篇教程探讨了大数据技术之一次KAFKA消费者异常引起的思考,希望阅读本篇文章以后大家有所收获,帮助大家对相关内容的理解更加深入. 问题描述: 线上出现一台服务器特别慢,于是关闭了服务器上的kafka ...
- python海量数据分析师职业技能_大数据分析师技能图谱详解与零基础自学内容大全...
全球的数据量正在以每18个月翻一倍的惊人速度增长,世界正在高速数字化,大数据堪比石油,如何掘金大数据是所有个人.企业和国家的机遇和挑战.中国是人才大国,能理解和应用大数据的创新人才更是稀缺资源.大数据 ...
- 大数据产品开发流程规范_大数据技术思想入门(三):分布式文件存储的流程
如果你不喜欢阅读文字的话,可以选择滑到最后看 视频讲解 哟~~~ 进程和 RPC 在上一篇文章中,我们讲解了要解决好大数据集的存储问题,需要引入一个主从结构的集群,其中,主服务器用于存储元数据,从服务 ...
- 大数据:技术与应用实践指南_大数据技术与应用社团 社会实践总结篇
不知不觉,我们已经在家里呆了七个月了 也不知道宿舍还好吗 小伙伴们有没有在家好好学习 在这个漫长的假期里,我们热爱学习的大数据技术与应用社团举办了为期七天的社会实践活动. 本次实践活动主要内容为网页设 ...
最新文章
- VSEARCH让你免费使用无内存限制的USEARCH
- JAV A获取项目路径
- 五种常见的 PHP 设计模式
- python3.5安装pygame_python怎么安装pygame
- GetConsoleWindow was not declared in this scope
- 使用OpenCV的分水岭算法
- Jmeter与搜狗输入法、百度输入法不兼容问题解决方法
- 【工具】kindle 怎么用微信读书
- 高德地图WEB端软件应用
- 如何在海外做游戏代理?
- 计算机组装与维护教训,组装电脑:如果电脑出现异常一定要小心了,马虎可能会烧毁主板!...
- 腾讯企业邮箱免费申请 mail-tencent.com
- 牛客算法周周练11 A.切题之路 签到题
- 解决ERROR 1109 (42S02): Unknown table 'xxx' in MULTI DELETE
- ros 发布信息频率_ROS:消息发布器和订阅器(c++)
- python爬取斗鱼图片
- 世界各国人口相关指标(总人口、城镇/乡村人口及增长率、城镇化率、人口密度、男性/女性人口及增长率)1960-2021
- 试用AI写作软件AI-WRITER.COM:重写(rewrite)功能测试简短报告
- python培训网校
- 什么是跨境电商测评?