需要给定一个数值范围,然后按照下面的规则自动分箱:

  • 等频分箱:每个区间内包括的值一样多
  • 等距分箱:每两区间之间的距离是一样的

等频分箱使用:pd.qcut,更多可以参考文档:https://pandas.pydata.org/docs/reference/api/pandas.qcut.html
等距分箱使用:pd.cut,更多可以参考文档:https://pandas.pydata.org/docs/reference/api/pandas.cut.html

示例代码

import pandas as pdvalue_list = [0, 10, 20, 30.4, 59, 61, 79, 80, 90, 99, 100]# 等频分箱
value_freq_bins = pd.qcut(value_list, q=5)
print("等频分箱:", value_freq_bins.codes)# 等距分箱
value_dis_bins = pd.cut(value_list, bins=5)
print("等距分箱:", value_dis_bins.codes)

得到结果:

等频分箱: [0 0 0 1 1 2 2 3 3 4 4]
等距分箱: [0 0 0 1 2 3 3 3 4 4 4]

数据分箱2——等频、等距分箱相关推荐

  1. python分箱处理_python数据处理--WOE分箱

    数据分箱的重要性离散特征的增加和减少都很容易,易于模型的快速迭代: 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展: 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1 ...

  2. mysql一张表1亿天数据_1亿条数据在PHP中实现Mysql数据库分表100张

    转: 1亿条数据在PHP中实现Mysql数据库分表100张 http://php-z.com/thread-2115-1-1.html (出处: PHP-Z) 当数据量猛增的时候,大家都会选择库表散列 ...

  3. python 卡方分箱算法_特征工程 - 分箱

    卡方分箱 python自帶分箱函數  --  無法實現對分類型數據的分箱,可借助卡方分箱算法實現 import numpy as np import pandas as pd data = np.ra ...

  4. 大数据量下数据库设计及分库分表拆分原则

    在设计数据库的建设前,首先准备工作是了解业务,然后根据业务数据进行数据库设计,设计的同时需要考虑业务数据量.可改造性.数据弱一致性.读写分离.复杂SQL多样化等: 首先,可数据根据读弱一致性可以考虑添 ...

  5. Hive Sampling 抽样函数:Random随机抽样、Block 基于数据块抽样、Bucket table 基于分桶表抽样

    Hive Sampling 抽样函数 文章目录 Hive Sampling 抽样函数 Random随机抽样 Block 基于数据块抽样 Bucket table 基于分桶表抽样 语法 在HQL中,可以 ...

  6. adobe premiere做平衡分屏、不等距分屏、多角度效果

    先打开adobe premiere 导入三个视频素材,举例演示,并把三个视频素材分别放在三个轨道上 每个PR都会有自带的特效插件:找到  视频效果 - 变换 - 裁剪    用鼠标把  裁剪特效拉到第 ...

  7. 卡方分箱、KS分箱、最优IV分箱、树结构分箱、自定义分箱

    目录 分箱 分箱的概念 卡方分箱及代码实现 自定义分箱代码实现

  8. 计算一组数据平均值、最大值、最小值 (12 分)

    7-1 计算一组数据平均值.最大值.最小值 (12 分) 本题目要求读入一组数据,输出其平均值.最大值.最小值. 输入格式: 输入在一行中若干空格间隔的整数. 输出格式: 对每一组输入,在一行中以空格 ...

  9. 7-1 计算一组数据平均值、最大值、最小值 (12 分) 本题目要求读入一组数据,输出其平均值、最大值、最小值。 输入格式: 输入在一行中若干空格间隔的整数。 输出格式: 对每一组输入,在一行中

    7-1 计算一组数据平均值.最大值.最小值 (12 分) 本题目要求读入一组数据,输出其平均值.最大值.最小值. 输入格式: 输入在一行中若干空格间隔的整数. 输出格式: 对每一组输入,在一行中以空格 ...

最新文章

  1. 【嵌入式】Libmodbus之TCP模式Slave端程序示例
  2. bind、delegate、on的区别
  3. 永不示弱_永不过时的网页设计:今天和2000年的在线投资组合
  4. MapReduce寻找共同好友
  5. 创建控制文件后的疑难解答
  6. 两个方法事务调用问题
  7. 硬盘安装 Ubuntu 9.04 与 XP 双系统 (含 Grub 不写入 MBR 的方法)
  8. 我的面经——投行+咨询+外资银行
  9. 计算机安装网络打印机,如何安装网络打印机?电脑上安装网络打印机详细教程...
  10. L2-016 愿天下有情人都是失散多年的兄妹
  11. PMP常考知识点核对单-8.项目质量管理
  12. 金彩教育:提升产品标签的方法
  13. Unity 鼠标点击事件穿透
  14. HTML5 video autoplay=autoplay 无法自动播放的问题
  15. Pycharm如何将项目部署到树莓派上?
  16. 回书写时先什么后封口_‘‘问’’字在书写时先写什么,再写什么,像这样顺序书写的汉字有什么和什么?...
  17. L0/L1/L2/Lp/L∞范数的联系与区别
  18. Python学习笔记 day9 堡垒机前戏之paramiko模块
  19. HashMap为什么用链表加红黑树?目的是什么?原理是什么
  20. 仿天猫 购物车(Android studio 仿天猫 详情页面 添加购物车选择 颜色 尺寸demo)

热门文章

  1. Martin Odersky Scala编程公开课 第二周作业
  2. 使用python开发json、csv数据格式转换工具
  3. 如何起oracle,如何使用Oralce企业管理(Oracle Enterprise Manager)控制台
  4. telnet后为啥打开的时防火墙_以前用散煤取暖时,农民很大方,换上天然气后就“蔫了”,为啥?...
  5. Java:实验四第5题
  6. docker 中安装 mongodb
  7. SpringMVC 模型数据
  8. 【Xamarin.Android】掌握android支持库
  9. linux6.5+5.4 vncserver配置
  10. Aqua Data Studio数据库连接工具解决Sybase中文乱码问题