人工手动分箱,是指已经有了标准,比如:60分以下不合格,60-80合格,80+优秀

可以使用pandas.cut进行分箱,更多用法可以参考官方文档:https://pandas.pydata.org/docs/reference/api/pandas.cut.html

代码:

import pandas as pdvalue_list = [10, 20, 30.4, 59, 61, 79, 80, 90, 99, 100]# 没有标签,只有区间的划分
cut_bin = pd.cut(value_list, [0, 60, 80, 100], labels=['不合格', '合格', '优秀'])
print(pd.DataFrame(cut_bin, value_list))

得到结果:

10.0   不合格
20.0   不合格
30.4   不合格
59.0   不合格
61.0    合格
79.0    合格
80.0    合格
90.0    优秀
99.0    优秀
100.0   优秀

注意:

  • 指定区间默认左开右闭
  • 如果需要表示正无穷/负无穷,可以使用:float('inf')/-float('inf'),比如:[-float('inf'), 0, 60, 80, 100, float('inf')]

数据分箱1——人工手动分箱相关推荐

  1. R语言使用ggplot2包使用geom_boxplot函数绘制基础分组箱图(手动配置箱图箱体颜色)实战

    R语言使用ggplot2包使用geom_boxplot函数绘制基础分组箱图(手动配置箱图箱体颜色)实战 目录 R语言使用ggplot2包使用geom_boxplot函数绘制基础分组箱图(手动配置箱图箱 ...

  2. R语言ggplot2可视化箱图、配置抖动数据点(jitter points)避免数据点互相覆盖、并使用线条(line)连接两个箱图中不同分组成对的数据点(jitter on Boxplots)

    R语言ggplot2可视化箱图.配置抖动数据点(jitter points)避免数据点互相覆盖.并使用线条(line)连接两个箱图中不同分组成对的数据点(Connecting Paired Point ...

  3. 等距离分箱matlab代码,数据挖掘实验(二)数据预处理【等深分箱与等宽分箱】...

    本文代码均已在 MATLAB R2019b 测试通过,如有错误,欢迎指正. 一.分箱平滑的原理 (1)分箱方法 在分箱前,一定要先排序数据,再将它们分到等深(等宽)的箱中. 常见的有两种分箱方法:等深 ...

  4. 【数据处理】python变量分箱常见手法:分类型、数值型、卡方、自定义

    """ 分箱逻辑:1.类别型特征: 1)类别数在5个以下,可以直接根据类别来分箱 (binning_cate) 2)类别数在5个以上,建议做降基处理,再根据降基后的类别做 ...

  5. python分箱统计个数_【数据处理】python变量分箱常见手法:分类型、数值型、卡方、自定义...

    """ 分箱逻辑: 1.类别型特征: 1)类别数在5个以下,可以直接根据类别来分箱 (binning_cate) 2)类别数在5个以上,建议做降基处理,再根据降基后的类别 ...

  6. 特征工程之特征分箱(决策树分箱、卡方分箱、bestks以及评价标准WOE和IV)

    特征工程之特征分箱:决策树分箱.卡方分箱.bestks以及评价标准 1.WOE和IV 2.无监督分箱 2.1等频分箱 2.2等距分箱 3.有监督分箱 3.1决策树分箱 3.2best-ks分箱 3.3 ...

  7. 风控场景下的常用特征分箱介绍:BestKs分箱、卡方分箱、聚类分箱等

    介绍分箱方法之前,首先要了解为什么分箱? 分箱的好处: 1.分箱后的特征对异常数据有更强的鲁棒性.比如年龄中有一个异常值为300,分箱之后就可能划到>80这一箱中,而如果直接入模的话会对模型造成 ...

  8. python分箱_特征工程 - 分箱

    卡方分箱 python自带分箱函数  --  无法实现对分类型数据的分箱,可借助卡方分箱算法实现 import numpy as np import pandas as pd data = np.ra ...

  9. python分箱代码_python分箱_python 分箱_python等宽分箱 - 云+社区 - 腾讯云

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 我有一个数据框列与数字值: df.head()46. 544.2100.042. ...

最新文章

  1. 关于数字化转型,IDC发布了他们的新观点
  2. ubuntu 下 SubLime Text2 使用之创建快捷方式
  3. 九十分钟极速入门Linux——Linux Guide for Developments 学习笔记
  4. 全栈工程师已经过时?
  5. Beyond Compare 出现“这个许可证密钥已被撤销”的解决办法(不会删除记录)
  6. bugku 杂项 部分
  7. WindowsNT/2000的系统日志文件
  8. Spring IOC源码分析
  9. 抽奖活动啦!5本SpringMVC+MyBatis相关、3本Android Studio相关、6本Kafka相关
  10. 精华来了(含PPT) | 淘系技术嘉年华-杭州站
  11. Java 与 Mysql 时间相差八小时
  12. 2月海外域名主机商TOP10:Godaddy居首 雅虎第7
  13. kuix教程1:我的第一Kuix应用
  14. 交换机简单配置 SSH
  15. OpenCV颜色识别
  16. 从2020全球前十的数字货币交易所甄别风险
  17. 妙味课堂——HTML+CSS基础笔记
  18. 《论文阅读》FlowStep3D: Model Unrolling for Self-Supervised Scene Flow Estimation
  19. 如何快速成为APP制作、H5制作高手?
  20. CSS设置边框阴影效果

热门文章

  1. feather 设置坐标刻度_matplotlib学习记录:调整刻度范围和刻度标签
  2. html5怎么让div集中,html – 如何集中5个div而不使用margin-left?
  3. shouldoverrideurlloading为什么有时候不走_为什么付出越多,对方就越不懂得感恩,婚姻有时候也需要斤斤计较...
  4. 文本处理3剑客 sed命令
  5. (C/C++学习)15.C语言字符串和字符数组
  6. 关于label在ie8,9下的兼容问题???
  7. 理解和使用SQL Server中的并行
  8. 基于DCT系数的实时监控中运动目标检测
  9. zookeeper多种方式安装
  10. 完美解决IE6中fixed抖动问题的方法