python的数据预处理

  • 一,数据缺失值处理
  • 二,数据标准化
  • 三,数据的假设检验
  • 四,数据间的关系
  • 五,数据的可视化
  • 六,PCA主成成分分析

一,数据缺失值处理

(1)缺失值处理

dropna :删除空值
fillna:使用指定值或插值的方法
isnull :判断是否为空值,空返回True
notnull:isnull的否定

import matplotlib.pyplot as plt
import numpy as np
import  pandas as pd
from scipy import stats #导入假设检验分析模块儿
np.random.seed(1)#设置随机数种子
df=pd.DataFrame(np.random.randn(6,4),columns=list('ABCD'))
print(df)
#插入一些缺失值
print('---------------------------------------------------')
df.iloc[2:4,2:4]=np.nan
df.iloc[1,0:2]=np.nan
print(df)
t=df.isnull()
print(t)
#对指定缺失值进行处理,C列缺失值用0.5进行补偿
df.fillna({'C':0.5},inplace=True)
print(df)
#使用前向和后向
print('---------------------缺失值-------------------------------------')
#必须注意,fillna是返回新的,本身原来的数据集不变
df.fillna(method = 'backfill')
print(df)
#所以必须这样子才可以填充值
r=df.fillna(method = 'backfill')
print(r)

二,数据标准化

使用LabelEncoder

三,数据的假设检验

K-S检验

#对数据进行正态性检验
#使用K——S检验法
p2,p3=stats.kstest(x_1,'norm')
print(f'{p2},置信度为{p3}')
np.random.seed(19)
x_1=stats.norm.rvs(size=100) #正态分布生成随机数
plt.figure()#开启画布
plt.hist(x_1,bins=20,color='blue')
plt.xlabel('x')
plt.ylabel('fequence')
plt.title('hist plot')
plt.show()

四,数据间的关系

链接: link

五,数据的可视化

import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
#画个饼状图
#使用matplotlib库
labels=['szu','whu','thu','heb']#标记
size=[99,88,86,98]#每一个类的频数大小
color=['blue','yellow','red','green']
explode=(0,0.1,0.2,0)#0.1表示分离块儿
plt.pie(size,explode=explode,labels=labels,colors=color,shadow=True,autopct="%3.1f%%",#以某种数字格式展示startangle=0#以x轴方向的转向开始角度
)
plt.title('univerties')
plt.axis('equal')
plt.show()
#data=sns.load_dataset("iris")#连接不了外网,数据导入不进来
data=pd.read_csv(r"D:\研究生学习\python学习\Iris数据集\iris.csv")
sns.pairplot(data,hue='Species',size=3,diag_kind='hist',markers=['o','s','D'])
plt.show()

六,PCA主成成分分析

python的数据处理相关推荐

  1. python基础代码库-Python基础数据处理库-NumPy

    最近更新:2017-07-19 NumPy是Python做数据处理的底层库,是高性能科学计算和数据分析的基础,比如著名的Python机器学习库SKlearn就需要NumPy的支持.掌握NumPy的基础 ...

  2. Python空间数据处理环境搭

    Python空间数据处理环境搭 Conda的下载和安装 什么是Conda? 官方定义:Package, dependency and environment management for any la ...

  3. Power BI Power Query页面使用python进行数据处理

    1.对Power Query的表格调用python进行数据处理.如图所示进入python编辑界面. 2.右边的操作列表中会多出python脚本的操作步骤. 在中间的窗口中编写python脚本,Powe ...

  4. Python大数据处理库 PySpark实战 总结四

    Python大数据处理库 PySpark实战四 ETL 实战 实验数据来源 数据加载 观察资料 选择.筛选与聚合 机器学习实战 实验数据来源 数据加载 统计描述 清洗与变形 Pipeline 逻辑回归 ...

  5. Python读写矢量数据(2)矢量数据写入(属性数据)——Python地理数据处理学习分享

    这一节主要介绍矢量数据的写入(只有属性数据,无几何),如果有读者没有读取的基础建议先看一下上一篇文章,需要对矢量数据读取有一定的了解才能继续学习本节.在这里我们用到的数据仍为goble文件夹下的数据, ...

  6. 锂离子电池健康状态估计简介(一):基于Python的数据处理计算SOH,RUL,CCCT,CVCT

    锂离子电池无论是在军用还是民用领域都得到了广泛的应用,在锂离子电池健康评估中主要关注的参数有SOH和RUL.准确对其进行健康状态(Stateof Health, SOH)评估及剩余使用寿命(Reman ...

  7. Python表格数据处理方法

    Python表格数据处理方法 记录了一些机器学习与数模的过程中常用到的代码 数据读写 import numpy as np import pandas as pd excel数据(.xlsx) dat ...

  8. Python爬虫-数据处理与存储

    Python爬虫-数据处理与存储 数据处理 ​ 可以使用pandas模块来实现数据处理,pandas是一个开源的并且通过BSD许可的库.它主要为Python语言提供高性能.易于使用数据结构和数据分析工 ...

  9. Python股票数据处理的一些代码细节

    Python股票数据处理的一些代码细节 Numpy和Pandas相关 Numpy和Pandas比较 numpy.ndarray和多类型数据 Numpy神奇的取值方法 Pandas透视表 如何删除num ...

  10. python气象绘图速成_基于Python气象数据处理与可视化分析

    基于 Python 气象数据处理与可视化分析 张鑫 ; 曹蕾 ; 韩基良 [期刊名称] <气象灾害防御> [年 ( 卷 ), 期] 2020(027)001 [摘要] 全国综合气象信息共享 ...

最新文章

  1. Transformer也能生成图像
  2. python自动化干什么-高效工作,拒绝加班,看Python自动化功能到底有多强大
  3. TF之AutoML框架:AutoML框架的简介、特点、使用方法详细攻略
  4. 团队-Forward团队一阶段互评
  5. Smarty foreach
  6. 答网友问:如果用 OData 就能直接和 SAP 系统互通,BTP 和 CPI 这样的平台意义在哪里呢?
  7. 【转】从头说catalan数及笔试面试里那些相关的问题
  8. ​从程序员到 33 岁的亿万富翁
  9. 线程退出时执行函数,处理资源
  10. mysql 跳过一个事物_MySQL基于GTID的数据恢复
  11. Linux下查看NVIDIA的GPU使用情况
  12. CentOS7 Docker 端口映射
  13. 服务注册与发现-Spring Cloud Netflix-Eureka
  14. SpringBoot与Loki的那些事
  15. matlab保存pgm图形,matlab读写pgm文件
  16. SysML v2配置eclipse
  17. $‘\r‘: command not found,syntax error near unexpected token `$‘in\r‘‘
  18. Android_APP 微信支付接口开发
  19. 求菲波那切数列第n项
  20. 全球化观点的生产模式

热门文章

  1. Vue中使用qs 将post 请求方式序列化成get 请求
  2. java爬取今日头条文章
  3. MapReduce之Partition分区实例操作
  4. 华为s5720默认用户名和密码_华为S5720常用命令
  5. 免签微信 HOOK 最新版 7.0.3微信
  6. 扫描普通二维码,进入微信小程序
  7. 网友鸿蒙谷歌的Android,华为鸿蒙OS已经确认更名?新名字更加令人惊艳!网友:过目难忘...
  8. 【Android】软件开发中遇到的LUT
  9. R语言循环函数编写三境界
  10. thinkadmin