数据分箱1——人工手动分箱
人工手动分箱,是指已经有了标准,比如:60分以下不合格,60-80合格,80+优秀
可以使用pandas.cut
进行分箱,更多用法可以参考官方文档:https://pandas.pydata.org/docs/reference/api/pandas.cut.html
代码:
import pandas as pdvalue_list = [10, 20, 30.4, 59, 61, 79, 80, 90, 99, 100]# 没有标签,只有区间的划分
cut_bin = pd.cut(value_list, [0, 60, 80, 100], labels=['不合格', '合格', '优秀'])
print(pd.DataFrame(cut_bin, value_list))
得到结果:
10.0 不合格
20.0 不合格
30.4 不合格
59.0 不合格
61.0 合格
79.0 合格
80.0 合格
90.0 优秀
99.0 优秀
100.0 优秀
注意:
- 指定区间默认左开右闭
- 如果需要表示正无穷/负无穷,可以使用:
float('inf')
/-float('inf')
,比如:[-float('inf'), 0, 60, 80, 100, float('inf')]
数据分箱1——人工手动分箱相关推荐
- R语言使用ggplot2包使用geom_boxplot函数绘制基础分组箱图(手动配置箱图箱体颜色)实战
R语言使用ggplot2包使用geom_boxplot函数绘制基础分组箱图(手动配置箱图箱体颜色)实战 目录 R语言使用ggplot2包使用geom_boxplot函数绘制基础分组箱图(手动配置箱图箱 ...
- R语言ggplot2可视化箱图、配置抖动数据点(jitter points)避免数据点互相覆盖、并使用线条(line)连接两个箱图中不同分组成对的数据点(jitter on Boxplots)
R语言ggplot2可视化箱图.配置抖动数据点(jitter points)避免数据点互相覆盖.并使用线条(line)连接两个箱图中不同分组成对的数据点(Connecting Paired Point ...
- 等距离分箱matlab代码,数据挖掘实验(二)数据预处理【等深分箱与等宽分箱】...
本文代码均已在 MATLAB R2019b 测试通过,如有错误,欢迎指正. 一.分箱平滑的原理 (1)分箱方法 在分箱前,一定要先排序数据,再将它们分到等深(等宽)的箱中. 常见的有两种分箱方法:等深 ...
- 【数据处理】python变量分箱常见手法:分类型、数值型、卡方、自定义
""" 分箱逻辑:1.类别型特征: 1)类别数在5个以下,可以直接根据类别来分箱 (binning_cate) 2)类别数在5个以上,建议做降基处理,再根据降基后的类别做 ...
- python分箱统计个数_【数据处理】python变量分箱常见手法:分类型、数值型、卡方、自定义...
""" 分箱逻辑: 1.类别型特征: 1)类别数在5个以下,可以直接根据类别来分箱 (binning_cate) 2)类别数在5个以上,建议做降基处理,再根据降基后的类别 ...
- 特征工程之特征分箱(决策树分箱、卡方分箱、bestks以及评价标准WOE和IV)
特征工程之特征分箱:决策树分箱.卡方分箱.bestks以及评价标准 1.WOE和IV 2.无监督分箱 2.1等频分箱 2.2等距分箱 3.有监督分箱 3.1决策树分箱 3.2best-ks分箱 3.3 ...
- 风控场景下的常用特征分箱介绍:BestKs分箱、卡方分箱、聚类分箱等
介绍分箱方法之前,首先要了解为什么分箱? 分箱的好处: 1.分箱后的特征对异常数据有更强的鲁棒性.比如年龄中有一个异常值为300,分箱之后就可能划到>80这一箱中,而如果直接入模的话会对模型造成 ...
- python分箱_特征工程 - 分箱
卡方分箱 python自带分箱函数 -- 无法实现对分类型数据的分箱,可借助卡方分箱算法实现 import numpy as np import pandas as pd data = np.ra ...
- python分箱代码_python分箱_python 分箱_python等宽分箱 - 云+社区 - 腾讯云
广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 我有一个数据框列与数字值: df.head()46. 544.2100.042. ...
最新文章
- 关于数字化转型,IDC发布了他们的新观点
- ubuntu 下 SubLime Text2 使用之创建快捷方式
- 九十分钟极速入门Linux——Linux Guide for Developments 学习笔记
- 全栈工程师已经过时?
- Beyond Compare 出现“这个许可证密钥已被撤销”的解决办法(不会删除记录)
- bugku 杂项 部分
- WindowsNT/2000的系统日志文件
- Spring IOC源码分析
- 抽奖活动啦!5本SpringMVC+MyBatis相关、3本Android Studio相关、6本Kafka相关
- 精华来了(含PPT) | 淘系技术嘉年华-杭州站
- Java 与 Mysql 时间相差八小时
- 2月海外域名主机商TOP10:Godaddy居首 雅虎第7
- kuix教程1:我的第一Kuix应用
- 交换机简单配置 SSH
- OpenCV颜色识别
- 从2020全球前十的数字货币交易所甄别风险
- 妙味课堂——HTML+CSS基础笔记
- 《论文阅读》FlowStep3D: Model Unrolling for Self-Supervised Scene Flow Estimation
- 如何快速成为APP制作、H5制作高手?
- CSS设置边框阴影效果
热门文章
- feather 设置坐标刻度_matplotlib学习记录:调整刻度范围和刻度标签
- html5怎么让div集中,html – 如何集中5个div而不使用margin-left?
- shouldoverrideurlloading为什么有时候不走_为什么付出越多,对方就越不懂得感恩,婚姻有时候也需要斤斤计较...
- 文本处理3剑客 sed命令
- (C/C++学习)15.C语言字符串和字符数组
- 关于label在ie8,9下的兼容问题???
- 理解和使用SQL Server中的并行
- 基于DCT系数的实时监控中运动目标检测
- zookeeper多种方式安装
- 完美解决IE6中fixed抖动问题的方法