trainData   # 数据概览

最后一列是因变量

def check_var(df, col):  # 查看变量概览'''df: DataFramecol: column's namereturn/print: describe/value_counts and groupby.y.mean()需要修改的部分: 把因变量y1_is_purchase 换成当前dataframe的因变量名'''if len(df[col].unique())>10:  # 如果唯一值个数大于10,可认为是连续型变量print(df[col].describe())bins = np.unique(df[col].describe()[3:-1].values)bins = np.append(bins, np.inf)df['test'] = pd.cut(df[col], bins=bins, right=False)print(df.groupby('test').y1_is_purchase.mean())     # 换else:  # 唯一值小于等于10,认为是离散型变量print(df[col].value_counts().sort_values().sort_index())print(df.groupby(col).y1_is_purchase.mean().sort_index())  # 换if __name__ == '__main__':            check_var(trainData, col='si_tp')>>>count    6.842830e+05mean     8.554260e+05std      4.836979e+05min      0.000000e+0025%      5.000000e+0550%      1.000000e+0675%      1.000000e+06max      1.000000e+07Name: si_tp, dtype: float64test[0.0, 500000.0)          0.325231[500000.0, 1000000.0)    0.635996[1000000.0, inf)         0.698135Name: y1_is_purchase, dtype: float64

python数据变量概览 查看 连续性/离散型相关推荐

  1. 案例详解:基于工业大数据和工业互联网的离散型智能工厂

    1.企业简介 深圳市豪恩声学股份有限公司创立于2001年,注册资本总额4168万元,公司在深圳坪山自建工业园区,拥有现代化办公及生产场地3.5万平方米,现有员工2000人,智能机器人近100台,现代化 ...

  2. python 环境变量的查看

    *Python 要点 python 环境变量 环境变量是指操作系统运行环境的 一些参数,一般是指临时文件的位置或者系统文件的位置 查看环境变量步骤: ![第三步 ,进入高级系统配置(https://i ...

  3. Python入门--变量,浮点型,布尔型,字符串

    #变量,函数,类,模块和其他对象起的名字就叫标识符 #也就是python中需要自己命名字的就叫标识符 #规则:可以使用字母,数字,下划线 #不能以数字开头 #不能是保留字,即有些单词被python赋予 ...

  4. ggplot2 | 如何对连续型变量使用离散型调色板进行配色

    在7月份,本号推出了一个关于R语言配色方法的系列推文,其中第III节介绍了ggplot2工具包的配色方法--颜色标度函数 在这篇推文中,小编介绍了针对两种变量类型的三种颜色标度函数,即 离散型变量:离 ...

  5. 概率统计Python计算:离散型自定义分布数学期望的计算(一)

    对非经典分布的随机变量,当然可以按博文<自定义离散型分布>中介绍的方法,自定义rv_discrete(离散型)或rv_continuos(连续型)的子类(详见博文<自定义连续型分布& ...

  6. python保存模型 drop_(长期更新)【python数据建模实战】零零散散问题及解决方案梳理...

    注1:本文旨在梳理汇总出我们在建模过程中遇到的零碎小问题及解决方案(即当作一份答疑文档),会不定期更新,不断完善, 也欢迎大家提问,我会填写进来. 注2:感谢阅读.为方便您查找想要问题的答案,可以就本 ...

  7. python 数据框缺失值_Python:处理数据框中的缺失值

    python 数据框缺失值 介绍 (Introduction) In the last article we went through on how to find the missing value ...

  8. python 数据科学书籍_您必须在2020年阅读的数据科学书籍

    python 数据科学书籍 "We're entering a new world in which data may be more important than software.&qu ...

  9. stats | 概率分布与随机数生成(一)——离散型分布

    随机变量的分布模式是统计模型的基础,R的基础包stats提供了许多关于概率分布的函数.本篇主要介绍离散型分布,包括两点分布.二项分布.帕斯卡分布.负二项分布.几何分布.超几何分布和泊松分布. 1 st ...

最新文章

  1. Linux Shell脚本攻略学习总结:三
  2. Alphabet以3.8亿美元收购董事格林创业公司Bebop
  3. [转]python yield
  4. 带排序动画的横向条形图
  5. html 和jsp 引入jquery_不用jsp怎么实现前后端交互?给萌新后端的ajax教程(1)
  6. react学习(20)---发送参数
  7. Node+GitLab实现小程序CI系统
  8. Computer Vision News
  9. 关于php变量的赋值和引用的区别
  10. 手机QQ2009(塞班第三版)聊天记录提取完全代码
  11. idea快捷键最全最新最好
  12. Mysql集群原理整理
  13. 截止失真放大电路_5.深入浅出:多级放大电路种类及动态分析
  14. 单细胞测序流程(二)数据整理
  15. 电脑系统win8计算机在哪里设置开机密码,电脑怎样设置开机密码_win8开机密码设置...
  16. Photoshop 套索工具抠图
  17. v-for报错Cannot use v-for on stateful component root element because it renders multiple elements.
  18. 大数据分析的技术有哪些?
  19. glog使用与说明(转载)
  20. 使用window小娜实现文本转语音

热门文章

  1. 解决ORA-01033: ORACLE initialization or shutdown in progress
  2. make编译MCU(nxp1064)基于CMakeLists.txt
  3. 实战:使用yolov3完成肺结节检测(Luna16数据集)及肺实质分割
  4. JS 动态设置页面高度
  5. i5 1135g7和i7 10870h 参数对比哪个好
  6. 最大计算机互联网络是,目前世界上最大的计算机互联网络是什么?
  7. eset找不到服务器更新失败,解决ESET NOD32的更新模块错误
  8. 微信公众平台打不开或加载不完全解决办法
  9. UBTC主网已实现智能合约及混合共识机制!
  10. 电离层TEC格网主要计算方法