机器学习中原始数据处理的常用数据变换方法整理汇总
在机器学习进行数据处理前,首先要保证所有数据是无量纲的,并且数据是可以比较的,需要采用标准化方法来消除不同数据之间存在的差异。将原始数据进行处理,变为无量纲可比较的过程实际可以看做是归一化的过程。
目前数据标准化方法有多种,归结起来可以分为直线型方法(如极值法、标准差法)、折线型方法(如三折线法)、曲线型方法(如半正态性分布)。不同的标准化方法,对系统的评价结果会产生不同的影响,然而不幸的是,在数据标准化方法的选择上,还没有通用的法则可以遵循。
常见的方法有:min-max标准化(min-max normalization)、log函数转换、atan函数转换、z-score标准化(zero-mena normalization,此方法比较常用)、模糊量化法。
常用的数据变换方法:
在做灰色关联分析上的运用具体参考CSDN博主「cuntou0906」的原创文章,原文链接:https://blog.csdn.net/weixin_44231148/article/details/120046823
三种最常用的归一化方法:
1、min-max法(规范化方法)
min-max法也叫离差标准化,是对原始数据的线性变换,使结果映射到[0,1]区间。此方法类似于区间值变换方法。
这里特别用matlab中的mapminmax函数的使用来进行说明,mapminmax函数使用方法:
训练数据归一化函数 mapminmax() 默认归一化区间[-1,1],如果需要其他区间,则格式改成:[Y,PS] = mapminmax(X,0,1)归一化到区间[0,1]。
函数调用格式:
(1) [Y1,PS] = mapminmax(X1)
对 X1 的每一个元素采用的规范标准化映射为: f: Y1 = (X-Xmin)/(Xmax-Xmin) (映射过程记录在PS中 ,这个PS在后续数据预测结果反归一化时会用到)
(2) Y2 = mapminmax('apply',X2,PS)
对 X 采用的规范化映射为: f:Y = (X-Xmin)/(Xmax-Xmin) ,(记录在PS中),对 X2 也采取X1这个映射 PS进行与X1一致的规范化处理。
(3) X1 = mapminmax('reverse',Y1,PS),将归一化的数据Y1按照PS映射规则反归一化再得到原来的数据X1。
我在某数据预测中主要用到以上三种格式,其他不在赘述。
2、z-score法(正规化方法)
(1) 这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到y。
(2) z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。
(3) SPSS默认的标准化方法就是z-score标准化。
(4) z-score的简单化模型:y=1/(1+x) ,x越大证明y越小,这样就可以把很大的数规范在[0-1]之间了。
3、比例法(归一化方法)
该方法是针对全部数据为正值的序列。
原理介绍参考CSDN博主「样young」的原创文章,原文链接:https://blog.csdn.net/jisuanjiguoba/article/details/86439375
在使用中我主要用过min-max法(规范化方法)、初值化、均值化,之后有其他方法的使用再贴上我的使用经验总结。
本文主要是为方便查找资料将别人文章原理介绍粘贴汇总至此同时附上部分自己使用的经验总结,便于以后需要可以随时打开,理解不当之处感谢指正!
机器学习中原始数据处理的常用数据变换方法整理汇总相关推荐
- DataScience:深入探讨与分析机器学习中的数据处理之非线性变换—log对数变换、sigmoid/softmax变换
DataScience:深入探讨与分析机器学习中的数据处理之非线性变换-log对数变换.sigmoid/softmax变换 目录 深入探讨与分析机器学习中的数据处理之非线性变换 log对数变换 sig ...
- DataScience:深入探讨与分析机器学习中的数据处理之线性变换—标准化standardization、归一化Normalization/比例化Scaling的区别与联系
DataScience:深入探讨与分析机器学习中的数据处理之线性变换-标准化standardization.归一化Normalization/比例化Scaling的区别与联系 目录 深入探讨与分析机器 ...
- 机器学习中,有哪些特征选择的工程方法?
机器学习中,有哪些特征选择的工程方法? 数据和特征决定了机器学习的上限,而模型和算法调参只是逼近这个上限而已. 0,特征本身是否具有基础的表征能力或者判别性,例如方差筛选法.方差是衡量一个变量的离散程 ...
- 文本摘要常用数据集和方法研究综述
[1]侯圣峦,张书涵,费超群.文本摘要常用数据集和方法研究综述[J].中文信息学报,2019,33(05):1-16. 文章目录 LCSTS 数据集定义 NLPCC 数据集定义 自建数据集及其对应方法 ...
- 金蝶K3 V12.0 常用数据表(整理)
金蝶K3WISE常用数据表(整理) 在后台数据库ICClassType表中,字段FID<0的是老单,FID>0的是新单. ----------------系统设置------------- ...
- 爬虫之常用数据解析方法
爬虫之常用数据解析方法
- Ruby中有用但不常用的String方法总结
String中有用但是不常用到的方法: 1).self[substr] 当自身当中包含substr的时候.则生成并返回一致的字符串 irb(main):075:0> substr = &qu ...
- GCN】在NLP中应用GCN的几种构图方法整理
GCN]在NLP中应用GCN的几种构图方法整理:https://blog.csdn.net/qq_27590277/article/details/106264292
- sklearn中的数据预处理方法学习汇总
文章目录 sklearn中的数据预处理方法学习 一.标准化 Z-score标准化 Z-score标准化学习 Z-score标准化实现 Min-max标准化 MaxAbs标准化 二.非线性转换 映射到均 ...
最新文章
- 去除浏览器ip检测_浏览器怎么多开换ip,每个窗口不同的独立IP-VMLogin中文版指纹浏览器...
- PHP支付宝接口RSA验证
- JAVA基础之理解JNI原理
- JUnit单元测试用例
- 积木赛尔号机器人_精灵伙伴帮你打怪?我的世界x赛尔号联动即将开启!
- AKOJ-2037-出行方案
- Qt基于文本协议的网络应用开发
- 棋盘最短路径 python_Dijkstra 最短路径算法 Python 实现
- Moving stones(暴力+思维)
- 我们究竟还要学习哪些Android知识?完整版开放下载
- 旷视提出Circle Loss,革新深度特征学习范式 |CVPR 2020 Oral
- php 检测函数是否为对象,php如何查看对象方法
- Env:ctags和Taglist安装与配置
- JAVA共通関数--シングルクォーテーションをSQL用に追加する
- 《出版专业基础(初级)》2020版学习笔记2~8章
- java毕业设计 - vue外卖的点餐系统
- mtk 手机低电无法关机,电池容量一直显示1%
- 解决征信中心密码控件无法安装
- PHP学习笔记(二)——行云博客
- 安装并使用Ghidra的Eclipse插件的过程
热门文章
- 口述:我嫁入豪门后的真实生活……
- 企业微信开发--网页授权(获取code)
- 相位信息转化成高度信息
- 《小狗钱钱》博多·舍费尔 读书笔记
- 广东行政职业学院计算机应用技术,广东行政职业学院专业排名,招生专业目录(10篇)...
- 友情链接我们怎么设置比较好
- 8192网卡linux驱动,基于realik8192cu的usb无线网卡的linux驱动fatal error: Linux/smp_lock.h: No su...
- jack server 常见错误解决方法【转】
- 易语言数据类型内存分布格式
- 用Oracle的分析函数删除重复的表格