机器学习特征工程之连续变量离散化:聚类法进行分箱

离散化,就是把无限空间中有限的个体映射到有限的空间中;

根据用户的听音乐的数据来预测哪些歌曲更受欢迎。

假设大部分人听歌都很平均,会不停的听新的歌曲,但是有一个用户24小时的不停播放同一首歌曲,并且这个歌曲很偏门,导致这首歌的总收听次数特别高。如果用总收听次数来喂给模型,就会误导模型。这时候就需要使用“二值化”。

拿每个人的收入举例,大部分人的收入都不高,极少数人的收入极其高,分布很不均匀。有些人月收入3000,有些人月收入30万,跨了好几个数量级。

这种特征对于模型很不友好。这种情况就可以使用分桶来处理。分箱就是将数值特征分成不同的区间,将每个区间看做一个整体。

连续数据的离散化结果可以分为两类:

  一类是将连续数据划分为特定区间的集合,例如{(0,10],(10,20],(20,50],(50,100]}

  一类是将连续数据划分为特定类,例如类1、类2、类3

 常见实现针对连续数据化离散化的方法如下。

  分位数法:使用四分位、五分位、十分位等分位数进行离散化处理

  距离区间法:可使用等距区间或自定义区间的方式进行离散化,该方法(尤其是等距区间)可以较好地保持数据原有的分布

  频率区间法:将数据按照不同数据的频率分布进行排序,然后按照等频率或指定频率离散化,这种方法会把数据变换成均匀分布。好处是各区间的观察值是相同的,不足会改变了原有数据的分布状态。每个桶里的数值个数

机器学习特征工程之连续变量离散化:聚类法进行分箱相关推荐

  1. 机器学习特征工程之连续变量离散化:等频分箱

    机器学习特征工程之连续变量离散化:等频分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲,但是有 ...

  2. 机器学习特征工程之连续变量离散化:等宽分箱

    机器学习特征工程之连续变量离散化:等宽分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲,但是有 ...

  3. 机器学习特征工程之连续变量离散化:连续变量二值化(Binarizer)

    机器学习特征工程之连续变量离散化:连续变量二值化(Binarizer) 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均 ...

  4. 机器学习-特征工程中的特征选择

    对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...

  5. 机器学习实战 | 机器学习特征工程最全解读

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/41 本文地址:https://www.showmeai.tech/article-d ...

  6. 机器学习-特征工程中的数据预处理

    对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...

  7. 机器学习——特征工程——数据的标准化(Z-Score,Maxmin,MaxAbs,RobustScaler,Normalizer)

    数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模.特征.分布差异等对模型的影响. 比如线性回归模型.逻辑回归模型或包含矩阵的模型,它们会 ...

  8. 机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler)

    机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行 ...

  9. 机器学习特征工程之特征缩放+无量纲化:最小最大缩放(MinMaxScaler)

    机器学习特征工程之特征缩放+无量纲化:最小最大缩放(MinMaxScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行缩 ...

最新文章

  1. JS打印页面指定区域
  2. GridSearchCV和交叉熵
  3. 收藏!数据建模最全知识体系解读
  4. python中argmin函数_Python numpy.argmin()用法及代码示例
  5. C# 数据类型转换
  6. 硬件加速_消息称Xbox Series X主机将有专用音频硬件加速 带来更强沉浸感
  7. Face3D学习笔记(4)3DMM示例源码解析【中上】3DMM模型
  8. 斐讯K3官改,安装onmp教程,回馈社区。
  9. Vue开发实例(04)之更换项目入口
  10. 日常办公中的40+电子签场景,覆盖核心业务及岗位签署需求
  11. 锂电池电源管理系统设计与实现(单片机)
  12. 【打印机】连接共享打印机找不到网络路径解决方案
  13. GSM 第二代移动通信网络
  14. oracle同义词表不存在,同义词什么时候失效呢?
  15. 数据挖掘与数据分析项目链家租房数据(一)数据爬虫
  16. iphone阅读模式翻页_iPad的safari浏览器阅读模式如何翻页
  17. 交流电路中,RCL串并联的分析方式
  18. 小步快跑,快速迭代:安全运营的器术法道
  19. 2015年二本投档线
  20. 吹爆 阿里新产Spring Boot高级笔记,肝完变秃也变强

热门文章

  1. 排序算法---快速排序(java版)
  2. visual studio 代码提示插件_程序员请收好:10个非常实用的 VS Code 插件
  3. 01移动端布局基础之流式布局
  4. xshell远程登录ubuntu设置流程
  5. linux7 显示登陆,centos7 查看,修改登录日志
  6. 电感计算软件_一文让你了解到共模电感和差模电感的差异
  7. Nature回应南大花120万发特刊!被骂上热搜,南大到底委不委屈?
  8. 为什么三维重建才是计算机视觉的最终归宿?
  9. 输入输出 原理 java_java输入输出,书写规范,运行原理,跨平台原理(复习)...
  10. 在数据库创建表的时候,时间设置为什么类型,会随着每次提交的时间发生变化