一、说明:

Z-Score标准化是数据处理的一种常用方法。通过它能够将不同量级的数据转化为统一量度的Z-Score分值进行比较。提高了数据可比性,削弱了数据解释性。

二、公式:

1、总体数据的均值(μ)

2、总体数据的标准差(σ)

3、个体的观测值(x)

三、Z-Score的优缺点

优点:
1、简单,容易计算,凭借最简单的数学公式就能够计算出Z-Score并进行比较。

2、Z-Score能够应用于数值型的数据,并且不受数据量级的影响,因为它本身的作用就是消除量级给分析带来的不便。

缺点:
1、首先,估算Z-Score需要总体的平均值与方差,这一值在真实的分析与挖掘中很难得到,大多数情况下是用样本的均值与标准差替代。

2、其次,Z-Score对于数据的分布有一定的要求,正态分布是最有利于Z-Score计算的。

3、最后,Z-Score消除了数据具有的实际意义,A的Z-Score与B的Z-Score与他们各自的分数不再有关系,因此Z-Score的结果只能用于比较数据间的结果,数据的真实意义还需要还原原值。

四、Z-Score标准化python代码实现

import math
def get_average(data):  #求数组平均数return sum(data) / len(data)
def get_variance(data):#求数组方差average = get_average(data)return sum([(x - average) ** 2 for x in data]) / len(data)
def get_standard_deviation(data): #求数组标准差variance = get_variance(data)return math.sqrt(variance)
def get_z_score(data): #求数组的z-score归一化最后的结果avg = get_average(data)stan = get_standard_deviation(data)scores = [(i-avg)/stan for i in data]return scores

五、实际应用Python实现

def get_z_score(df):return (df['Duration'] - df['Duration'].mean())/df['Duration'].std()

Z-Score标准化相关推荐

  1. Lesson 14.1 数据归一化与Batch Normalization理论基础

    Lesson 14.1 数据归一化与Batch Normalization理论基础   数据归一化是机器学习领域的一种对数据处理的常规方式.在传统机器学习领域,由于各特征的量纲不一致,可能出现建模过程 ...

  2. [西瓜书习题] 第二章 模型评估与选择

    2.1 数据集包含1000个样本,其中500个正例,500个反例,将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方式. 留出法将数据集划分为两个互斥的集合,为 ...

  3. 实现机器学习的循序渐进指南I——KNN

    目录 介绍 KNN模型 距离计算 选择K 分类 结论与分析 可访问 实现机器学习的循序渐进指南系列汇总,获取本系列完成文章列表. 介绍 K-最近邻(KNN)是一种简单的机器学习算法,其原理是计算测试对 ...

  4. Kaggle Lending Club Loan Data数据可视化分析与不良贷款预测

    文章目录 数据集介绍 数据可视化分析前的数据预处理 引入包和数据集 对特征缺失值的处理 保存处理好的数据集 数据可视化分析 申请贷款金额和实际贷款金额的数据分布 每年贷款笔数直方图与每年贷款总金额直方 ...

  5. 机器学习之为什么要数据预处理?如何预处理数据?

    在现实生活问题中,我们得到的原始数据往往非常混乱.不全面,机器学习模型往往无法从中有效识别并提取信息.数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已,在采集完数据后,机器学习建模的首 ...

  6. 吴恩达机器学习课程笔记一

    吴恩达机器学习课程笔记 前言 监督学习---`Supervised learning` 无监督学习---`Unsupervised learning` 聚类 异常检测 降维 增强学习---`Reinf ...

  7. 机器学习-周志华-课后习题-模型选择与评估

    文中提到,在机器学习的过程中,过拟合总是无法彻底避免的.其中,关于P与NP的论述,个人理解为:对于一个有效的算法,它一定要在多项式时间内运行完成.此时,算法可以恰当程度地学习到所需要的知识,也就是说既 ...

  8. 数据分析之数据处理(四)

    数据分析之数据处理(四) 一.数据归一化/标准化 数据的标准化是数据按比例缩放,使之落入一个小的特定区间.在某些比较和评论的指标处理汇总京城会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不 ...

  9. PythonStudy4

    文章目录 一.前言 二.归一化 1. 概念 2. 方法 3. 归一化代码 三.训练 四.其他算法 五.总结 一.前言 无论怎么选择数据特征都难以得到一个高的分类率. 最后在看方差和标准差的时候, 发现 ...

  10. excel怎么把竖排变成横排_如何优雅的使用Excel作出高大上的图片

    点击下图可看科研绘图专辑 解螺旋公众号·陪伴你科研的第2200天 Excel绘制弦图.标准化热图.相关性系数图.地图.Cleveland图全在行!几乎所有人电脑上都安装有Excel.微软花了20年时间 ...

最新文章

  1. springcloud是什么_阿里P8道出,入职阿里必会199道SpringCloud面试题,你能掌握多少?...
  2. Xtrabackup备份到远程服务器
  3. redhat 禁止selinux步骤
  4. 区块链常用架构是什么?它和保险业又如何结合?
  5. Oracle常用运维命令整理
  6. Ubuntu:查询计算机软硬件信息
  7. win10 安装 mysql-8.0.12
  8. 编写一个Applet在屏幕上画椭圆,椭圆的大小和位置由鼠标决定
  9. 域控制器的常规卸载,Active Directory系列之十三
  10. 5.26. sysvmsg
  11. TIA博途_如何更新程序中的指令版本和CPU固件版本?
  12. 数据成功插入数据库,前端页面却实现404错误 POST http://127.0.0.1:8080/user/register 404 ()
  13. chrome开发者工具实现网页截长图
  14. python不好找工作怎么办信用卡_利用python进行信用卡欺诈检测
  15. 论人类不平等起源读后感
  16. 对话周傲英:数据库人的切肤之痛
  17. 民间文学【0006】
  18. matlab求定积分和不定积分
  19. 模糊 C 均值聚类(Fuzzy C-Means)
  20. 【小学数学论文】浅析小学学生数学计算能力的培养

热门文章

  1. vue3配置host和port,以及设置跨域(vite打包)
  2. 谈谈你对Spring的理解?
  3. AI创想秀,邂逅“华为云ModelArts”征文大赛
  4. miui12怎么自定义开机动画_小米MIUI 12全面泄密,这几大功能超越iOS!
  5. HDUOJ 4576 2013杭州邀请赛重现 Robot
  6. ubuntu安装和分区方案(转载他人)
  7. php调试之xdebug配置详解
  8. (精简稳定版)win8系统下装win7系统
  9. facebook login 申请 app_id 和 app_secret
  10. 看得见的黑科技:好太太智能锁V86S,安全便捷一步到位