论文合作、课题指导请联系QQ2279055353

归一化

归一化(Normalization), 是将逐个样本缩放成单位范数(方差)的过程。归一化过程对于平方的形式,例如点积,或者量化成对样本的核函数时是有用的。Python函数normalize()提供了一种快速简单的归一化操作,主要使用L1, L2范数。

例子


模块preprocessing进一步提供了实用类Normalizer, 使用Transformer API实现相同的归一化操作。

normalizer = preprocessing.Normalizer().fit(X)  # fit does nothing

离散化

离散化(Discretization, or quantization or binning), 是用来分割连续变量成为若干个离散值的一种方法。One-hot编码的离散化特征使得模型更复杂,但更具可解释性。

K-bins离散

KBinsDiscretizer类将连续特征离散化成k个bins, 由函数KBinsDiscretizer()实现。

默认输出是一个One-hot编码的稀疏矩阵。对于每一个特征,fit方法计算bin数量与边长,然后定义间隔。在上例种,

  • 特征1:[−∞,−1][-\infty, -1][−∞,−1], [−1,2)[-1, 2)[−1,2), [2,∞)[2, \infty)[2,∞)

  • 特征2:(−∞,5)(-\infty, 5)(−∞,5), [5,∞)[5, \infty)[5,∞)

  • 特征3:(−∞,14)(-\infty, 14)(−∞,14), [14,∞)[14, \infty)[14,∞)

根据bins间隔,X转换成

二值特征

特征二值化过程,是将数量特征离散化成布尔值。这种离散化方法常用于当下面的概率估计假设输入数据是多维伯努力分布时。在文本处理过程普遍使用这种特征二值化,由类Binarizer实现。

在二值化过程中,也可以调整阈值。

数据预处理第3讲:归一化与离散化相关推荐

  1. 均值归一化_数据预处理:标准化和归一化

    网上很多关于标准化和归一化的文章,不少是误人子弟的存在.这篇文字希望给大家讲清讲透这两个概念. 一.标准化(standardization) 公式一般为:(X-mean)/std,其中mean是平均值 ...

  2. 数据预处理|关于标准化和归一化的一切

    数据预处理是最令数据科学家头秃的工作 之前在知乎看过一个问题你为什么离开数据科学行业?一位知友est答曰:数据清洗10小时,拟合2分钟,如此重复996. 这条回答下面的评论更是精彩,居然真的会眼瞎.. ...

  3. 卷积在计算机中实现+pool作用+数据预处理目的+特征归一化+理解BN+感受野理解与计算+梯度回传+NMS/soft NMS

    一.卷积在计算机中实现 1.卷积 将其存入内存当中再操作(按照"行先序"): 这样就造成混乱. 故需要im2col操作,将特征图转换成庞大的矩阵来进行卷积计算,利用矩阵加速来实现, ...

  4. 数据预处理第6讲:正态变换

    论文合作.课题指导请联系QQ2279055353 Box-Cox and Yeo-Johnson变换可以将来自不同分布的数据映射到正态分布.下面的例子将这两种变换应用到6种不同的概率分布数据:Logn ...

  5. 对于噪声数据理解以及Min-Max 规范化和 Score规范化(零-均值规范化)的实例【数据预处理】

    文章目录 一.噪声数据 1.1分箱 1.2分箱法光滑数据 1.3噪声数据 1.4回归Regression 1.5聚类Cluster Analysis 1.6 数据清理作为一个过程 1.6.1 偏差检测 ...

  6. 大厂面试机器学习算法(0):特征工程 | 数据预处理

    文章目录 数据分桶(分箱) 卡方分桶 等距分桶 等频分桶 聚类分桶 无量纲化 数据规范化 数据正则化 数据清洗 数据缺失 噪音数据 数据不一致 特征选择与特征提取 特征选择 特征提取 数据分桶(分箱) ...

  7. 阅读宋立恒《AI制胜:机器学习极简入门》第2章:机器学习中的数据预处理

    文章目录 一.数据预处理的重要性和原则 二.数据预处理方法介绍 (一)数据预处理案例--标准化.归一化.二值化 1.标准化.归一化.二值化 2.范例程序 (二)数据预处理案例--缺失值补全.标签化 1 ...

  8. pandas数据预处理(标准化归一化、离散化/分箱/分桶、分类数据处理、时间类型数据处理、样本类别分布不均衡数据处理、数据抽样)

    1. 数值型数据的处理 1.1 标准化&归一化 数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模.特征.分布差异等对模型的影响. ...

  9. 负数如何归一化处理_机器学习之数据预处理

    第一节:前言 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已.由此可见,特征工程在机器学习中占有相当重要的地位. 特征工程:利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能 ...

  10. 《scikit-learn》数据预处理与特征工程(一)数据归一化

    数据挖掘的五大流程 1:获取数据 从调查问卷,网络,爬虫,算法转变等一系列方式获得数据 2:数据预处理 这是从数据中检测.纠正.或者删除损坏.不准确.不适用的数据的过程. 可能面对的问题有:数据类型不 ...

最新文章

  1. 5年後、10年後の自分のイメージ
  2. java面试怎样成功率高一些_java初学者参加面试怎样提高成功率?
  3. CentOS开机启动脚本的顺序
  4. ITK:重新缩放图像
  5. OpenGL Deferred Shading延迟阴影实例
  6. c语言怎么独缺非空格字符,C语言-字符串(单个字符)
  7. bilateral filter双边滤波器的通俗理解
  8. heic怎么查看,如何打开heic
  9. 装了卡巴后VS 2003不能启动调试错误的解决方案
  10. 聊聊2019年的web前端
  11. 一些值得注意的算法题——动态规划
  12. 无法登陆skype显示无法找到服务器,无法登录 Lync,因为找不到此登录地址 - Skype for Business | Microsoft Docs...
  13. OSChina 周三乱弹 ——找女朋友都是双胞胎
  14. 服务器摆放需要预留U位么_客厅沙发怎么摆放?六种方法教你如何摆放!(实用荐读)...
  15. 使用matplotlib.plot绘制随机点位图
  16. CentOS服务器密匙登录
  17. (n++)+(n++)+(n++)与(++n)+(++n)+(++n)的区别
  18. 【自动化测试】自动化测试框架那些事儿
  19. 查看tcp 请求中的各个状态数据
  20. jmeter- 循环控制器计数器 实现批量添加操作

热门文章

  1. jmake 编译当前目录所有c/c++单文件
  2. 你真的会使用SQL Server的备份还原功能吗?之一:恢复模型
  3. 网管学习日记-ospf认证
  4. 向一个文件中写入字符,可以规定每行字数
  5. 黑色沙漠单机一键端服务器维护,《黑色沙漠》网游单机版一键服务端
  6. php 5.6 mcrypt,mcrypt在Windows / IIS上的PHP 5.6中不起作用
  7. Linux目录结构详解
  8. 云计算数据中心Spine-Leaf模型简介
  9. 特殊权限suid,sgid,sticky和acl(访问控制列表)参数详解
  10. # 每天阅读一个 npm 模块(7)- delegates