数据分析之数据处理(四)

一、数据归一化/标准化

数据的标准化是数据按比例缩放,使之落入一个小的特定区间。在某些比较和评论的指标处理汇总京城会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或两级的指标能够进行比较和加权
最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上

(一)数据标准化

1. 0-1标准化

(1)创建数据
# 数据标准化
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')
#0-1标准化:将数据的最大值最小值记录下来,并通过max-min作为基数(即min=0,max=1)进行数据的归一化处理
# 数据的归一化处理:x=(x-min)/(max-min)# step 1 创建数据
df=pd.DataFrame({"value1":np.random.rand(10)*20,'value2':np.random.rand(10)*100})
print('*******原数据********\n',df.head())
(2)创建数据
# step 2 创建函数,标准化数据
def data_norm(df,*cols):df_n=df.copy()for col in cols:ma=df_n[col].max()mi=df_n[col].min()df_n[col+'_n']=(df_n[col]-mi)/(ma-mi)return (df_n)
(3)标准化数据
# step 3 标准化数据
df_n=data_norm(df,'value1','value2')
print('\n*******标准化数据********\n',df_n.head())

运行结果

2.Z - score标准化

  • Z分数(z-score)是一个分数与平均数的差再除以标准差的过程 → z=(x-μ)/σ,其中x为某一具体分数,μ为平均数,σ为标准差
  • Z值的量代表着原始分数和母体平均值之间的距离,是以标准差为单位计算。在原始分数低于平均值时Z则为负数,反之则为正数
  • 数学意义:一个给定分数距离平均数多少个标准差?
  • 什么情况下使用Z-score标准化:在分类,聚类算法中,需要使用距离来度量相似性的时候,Z-score表现更好
(1)创建数据
# 数据标准化(2)z-score标准化
import pandas as pd
import numpy as np
# import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')# step 1 创建数据
df = pd.DataFrame({"value1":np.random.rand(10) * 100,'value2':np.random.rand(10) * 100})
print('*****原数据*****\n',df.head())
(2)创建函数,标准化数据
# step 2 创建函数,标准化数据
def data_Znorm(df,*cols):df_n=df.copy()for col in cols:u=df_n[col].mean()#平均值std=df_n[col].std()#标准差df_n[col+'_Zn']=(df_n[col]-u)/stdreturn (df_n)
(3)标准化数据
# step 3 标准化数据
df_z=data_Znorm(df,'value1','value2')
u_z=df_z['value1_Zn'].mean()
std_z=df_z['value1_Zn'].std()
print('\n*****标准化后数据*****\n',df_z)
print('\n*****标准化后value1的均值为:%.2f, 标准差为:%.2f*****\n' % (u_z, std_z))

运行结果


自学自用,希望可以和大家积极沟通交流,小伙伴们加油鸭,如有错误还请指正,不喜勿喷

数据分析之数据处理(四)相关推荐

  1. python快速入门神器 知乎_python数据分析之数据处理终极神器

    一行代码一行代码带着敲,通过实战讲解如何进行数据预处理,在实战中学习,最快的学习方法,精华!讲解的非常详细简单,学不会,全额退款哦!!! 数据分析之数据处理终极神器课程目录如下: 1数据框行与列的选择 ...

  2. 数据分析之数据处理(一)

    数据分析之数据处理(一) 一.缺失值处理 数据确实是主要包括记录缺失和字段信息缺失等情况,其对数据分析会有较大的影响,导致结果不确定性更加显著 缺失值的处理:删除记录/数据插补/不处理 import ...

  3. chatgpt赋能python:Python是一门强大的编程语言,它在数据分析和数据处理方面广受欢迎。在网站开发中,Python也被广泛应用。它可以用于开发Web应用、爬虫、自动化测试等。此外,Pyt

    Python是一门强大的编程语言,它在数据分析和数据处理方面广受欢迎.在网站开发中,Python也被广泛应用.它可以用于开发Web应用.爬虫.自动化测试等.此外,Python也可以用于创建表格.在本文 ...

  4. 【数据分析】数据分析方法(四):多维度拆解分析 对比分析

    数据分析方法(四):多维度拆解分析 & 对比分析 1. 多维度拆解分析方法 对于多维度拆解分析方法,要理解两个关键词:维度.拆解. 只看数据整体,我们可能注意不到数据内部各个部分构成的差异,如 ...

  5. 数据分析之pandas常见的数据处理(四)

    常见聚合方法 方法 说明 count 计数 describe 给出各列的常用统计量 min,max 最大最小值 argmin,argmax 最大最小值的索引位置(整数) idxmin,idxmax 最 ...

  6. 大数据分析技术研究报告(四)

    作者:朱赛凡 四 大数据背景下数据分析挖掘技术介绍 1 Mahout与MLlib项目 数据分析挖掘主要涉及两个方面:一是数据预处理:二是数据挖掘. 在数据预处理方面,根据掌握资料来看,大型互联网公司主 ...

  7. 数据分析系列剧第四集:行业研究报告与生产计划

    在老李的指导下,小蔡画出了服装行业研究报告的思路框架(见下图) 接着小蔡基于该思路撰写了一份简要的报告(见下图). 周总看完了这份报告,点点头说:"小蔡,写的不错!你对服装行业已经有了一定了 ...

  8. 利用python进行数据分析——第十四章_数据分析案例

    文章目录 本章中的数据文件可从下面的github仓库中下载 利用python进行数据分析(第二版) 一.从Bitli获取 1.USA.gov数据 1.1纯python时区计数 1.2使用pandas进 ...

  9. 用Python做数据分析之数据处理及数据提取

    1.数据预处理 第四部分是数据的预处理,对清洗完的数据进行整理以便后期的统计和分析工作.主要包括数据表的合并,排序,数值分列,数据分组及标记等工作. 1)数据表合并 首先是对不同的数据表进行合并,我们 ...

最新文章

  1. 一文读懂残差网络ResNet
  2. 惊了!Chrome浏览器竟然自带的一款恐龙游戏【免下载】
  3. Boost:BOOST_ASSERT_MSG扩展的用法测试程序
  4. matlab hashset,MATLAB集合操作
  5. 记一次 .NET 某智慧水厂API 非托管内存泄漏分析
  6. [MEGA DEAL]终极Java捆绑包(95%折扣)
  7. Apache ActiveMQ 各个版本所依赖的JDK版本
  8. 你真的了解 ConcurrentHashMap 吗?
  9. 12-17 学习记录
  10. Anaconda Python安装,Spyder汉化及调试
  11. 稳压二极管的工作原理及稳压二极管使用电路图
  12. SSIS(简单数据抽取过程介绍)
  13. 夜曲歌词 拼音_夜曲歌词 周杰伦夜曲LRC歌词_九酷音乐
  14. @2017-2018 ACM-ICPC Nordic Collegiate Programming Contest (NCPC 2017) K:Kayaking Trip(二分+贪心)
  15. python连通域提取 原理_连通域的原理与Python实现
  16. oracle 与赛门铁克,Oracle与赛门铁克认证Veritas数据中心解决方案
  17. 嵌入式计算机课程设计,嵌入式系统设计课设报告.doc
  18. 最新爬取携程酒店信息上:思路讲解
  19. python画易烊千玺_教你如何轻松画出逼真的易烊千玺
  20. 单片机实验装置,单片机课程教学配套实验设备

热门文章

  1. 广数25i系统倒刀回刀m代码_基于广数GSK25i数控系统伺服刀库的控制
  2. 使用dex2jar 与xjad 反编译APK文件,查看源码
  3. 计算机图形学--全局光照(3D 空间:LPV,VXGI;屏幕空间:SSAO)
  4. python音频两条路径_使用Python实现音频双通道分离
  5. 分子动力学模拟笔记-GROMACS模拟蛋白质小分子体系(二)
  6. 小菜鸡的html初步教程(第十三章 使用WEB字体)
  7. 单词接龙 单词接龙的规则是
  8. 锐起无盘xp 1.5 试装手记(转)
  9. 键盘码、ASCII码表
  10. 如何将.spl剥离成.emf文件格式