机器学习特征工程之连续变量离散化:连续变量二值化(Binarizer)

离散化,就是把无限空间中有限的个体映射到有限的空间中;

根据用户的听音乐的数据来预测哪些歌曲更受欢迎。

假设大部分人听歌都很平均,会不停的听新的歌曲,但是有一个用户24小时的不停播放同一首歌曲,并且这个歌曲很偏门,导致这首歌的总收听次数特别高。如果用总收听次数来喂给模型,就会误导模型。这时候就需要使用“二值化”。

拿每个人的收入举例,大部分人的收入都不高,极少数人的收入极其高,分布很不均匀。有些人月收入3000,有些人月收入30万,跨了好几个数量级。

这种特征对于模型很不友好。这种情况就可以使用分桶来处理。分箱就是将数值特征分成不同的区间,将每个区间看做一个整体。

连续数据的离散化结果可以分为两类:

  一类是将连续数据划分为特定区间的集合,例如{(0,10],(10,20],(20,50],(50,100]}

  一类是将连续数据划分为特定类,例如类1、类2、类3

 常见实现针对连续数据化离散化的方法如下。

  分位数法:使用四分位、五分位、十分位等分位数进行离散化处理

  距离区间法:可使用等距区间或自定义区间的方式进行离散化,该方法(尤其是等距区间)可以较好地保持数据原有的分布

  频率区间法:将数据按照不同数据的频率分布进行排序,然后按照等频率或指定频率离散化,这种方法会把数据变换成均匀分布。好处是各区间的观察值是相同的,不

机器学习特征工程之连续变量离散化:连续变量二值化(Binarizer)相关推荐

  1. 机器学习特征工程之连续变量离散化:聚类法进行分箱

    机器学习特征工程之连续变量离散化:聚类法进行分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲, ...

  2. 机器学习特征工程之连续变量离散化:等频分箱

    机器学习特征工程之连续变量离散化:等频分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲,但是有 ...

  3. 机器学习特征工程之连续变量离散化:等宽分箱

    机器学习特征工程之连续变量离散化:等宽分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲,但是有 ...

  4. 机器学习-特征工程中的特征选择

    对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...

  5. 机器学习-特征工程中的数据预处理

    对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...

  6. 机器学习 | 特征工程综述

    一.前言 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已.特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器学习模型逼近这个上限. 构建 ...

  7. 机器学习实战 | 机器学习特征工程最全解读

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/41 本文地址:https://www.showmeai.tech/article-d ...

  8. 机器学习-特征工程中的特征降维

    对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...

  9. 机器学习——特征工程——数据的标准化(Z-Score,Maxmin,MaxAbs,RobustScaler,Normalizer)

    数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模.特征.分布差异等对模型的影响. 比如线性回归模型.逻辑回归模型或包含矩阵的模型,它们会 ...

最新文章

  1. android查看报错日志,android运行错误日志帮看下 不懂啊
  2. 前端小问题1——(最近好久没有发博客。。。待续)
  3. linux部署vue项目_Vue项目部署的最佳实践
  4. 如何在string.Format方法中输出大括号({})
  5. win7变成xp风格了怎么改回_XP退役了,如何把Win7变成XP风格
  6. java的设计模式之单列设计模式
  7. linux简单的操作命令
  8. Android 四大组件学习之Service四
  9. 概率论与数理统计的学习
  10. Python 疾病诊断归一化
  11. C++程序设计一、二(二元一次方程与函数、函数指针)
  12. 巧用 Dummy 解决断网情况下的网络访问问题
  13. 中学教师资格考试作文真题
  14. HBase 性能与可用性在滴滴的探索与实践
  15. java中between and什么意思,关于 oracle between and的用法!
  16. xxx is out of date错误
  17. Python分布式爬虫打造搜索引擎
  18. JAVA-stage3-day03-MybatisMybatisPlus
  19. 马云:曾去肯德基面试25人就我没被录用 30多年彷徨成就今天
  20. 认识Access中的MDE文件

热门文章

  1. 如何理解HTTP协议是无状态的
  2. JVM---虚拟机栈(操作数栈)
  3. 讨厌php机试_[转载]PHP上机面试题
  4. python生成50个随机数_Python:如何生成12位随机数?
  5. public接口可以被任何一个类实现_一文带你深入Java核心技术:对象克隆+接口与回调,还有这种操作...
  6. 一文详解目标跟踪中的相关滤波
  7. AI 框架部署方案之模型部署概述
  8. 超越GhostNet!吊打MobileNetV3!MicroNet通过极低FLOPs实现图像识别(文末获取论文)
  9. 一分钟详解OpenCV之相机标定函数calibrateCamera()
  10. Job for docker.service failed because the control process exited with error code. See systemctl sta