python的数据处理
python的数据预处理
- 一,数据缺失值处理
- 二,数据标准化
- 三,数据的假设检验
- 四,数据间的关系
- 五,数据的可视化
- 六,PCA主成成分分析
一,数据缺失值处理
(1)缺失值处理
dropna :删除空值
fillna:使用指定值或插值的方法
isnull :判断是否为空值,空返回True
notnull:isnull的否定
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from scipy import stats #导入假设检验分析模块儿
np.random.seed(1)#设置随机数种子
df=pd.DataFrame(np.random.randn(6,4),columns=list('ABCD'))
print(df)
#插入一些缺失值
print('---------------------------------------------------')
df.iloc[2:4,2:4]=np.nan
df.iloc[1,0:2]=np.nan
print(df)
t=df.isnull()
print(t)
#对指定缺失值进行处理,C列缺失值用0.5进行补偿
df.fillna({'C':0.5},inplace=True)
print(df)
#使用前向和后向
print('---------------------缺失值-------------------------------------')
#必须注意,fillna是返回新的,本身原来的数据集不变
df.fillna(method = 'backfill')
print(df)
#所以必须这样子才可以填充值
r=df.fillna(method = 'backfill')
print(r)
二,数据标准化
使用LabelEncoder
三,数据的假设检验
K-S检验
#对数据进行正态性检验
#使用K——S检验法
p2,p3=stats.kstest(x_1,'norm')
print(f'{p2},置信度为{p3}')
np.random.seed(19)
x_1=stats.norm.rvs(size=100) #正态分布生成随机数
plt.figure()#开启画布
plt.hist(x_1,bins=20,color='blue')
plt.xlabel('x')
plt.ylabel('fequence')
plt.title('hist plot')
plt.show()
四,数据间的关系
链接: link
五,数据的可视化
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
#画个饼状图
#使用matplotlib库
labels=['szu','whu','thu','heb']#标记
size=[99,88,86,98]#每一个类的频数大小
color=['blue','yellow','red','green']
explode=(0,0.1,0.2,0)#0.1表示分离块儿
plt.pie(size,explode=explode,labels=labels,colors=color,shadow=True,autopct="%3.1f%%",#以某种数字格式展示startangle=0#以x轴方向的转向开始角度
)
plt.title('univerties')
plt.axis('equal')
plt.show()
#data=sns.load_dataset("iris")#连接不了外网,数据导入不进来
data=pd.read_csv(r"D:\研究生学习\python学习\Iris数据集\iris.csv")
sns.pairplot(data,hue='Species',size=3,diag_kind='hist',markers=['o','s','D'])
plt.show()
六,PCA主成成分分析
python的数据处理相关推荐
- python基础代码库-Python基础数据处理库-NumPy
最近更新:2017-07-19 NumPy是Python做数据处理的底层库,是高性能科学计算和数据分析的基础,比如著名的Python机器学习库SKlearn就需要NumPy的支持.掌握NumPy的基础 ...
- Python空间数据处理环境搭
Python空间数据处理环境搭 Conda的下载和安装 什么是Conda? 官方定义:Package, dependency and environment management for any la ...
- Power BI Power Query页面使用python进行数据处理
1.对Power Query的表格调用python进行数据处理.如图所示进入python编辑界面. 2.右边的操作列表中会多出python脚本的操作步骤. 在中间的窗口中编写python脚本,Powe ...
- Python大数据处理库 PySpark实战 总结四
Python大数据处理库 PySpark实战四 ETL 实战 实验数据来源 数据加载 观察资料 选择.筛选与聚合 机器学习实战 实验数据来源 数据加载 统计描述 清洗与变形 Pipeline 逻辑回归 ...
- Python读写矢量数据(2)矢量数据写入(属性数据)——Python地理数据处理学习分享
这一节主要介绍矢量数据的写入(只有属性数据,无几何),如果有读者没有读取的基础建议先看一下上一篇文章,需要对矢量数据读取有一定的了解才能继续学习本节.在这里我们用到的数据仍为goble文件夹下的数据, ...
- 锂离子电池健康状态估计简介(一):基于Python的数据处理计算SOH,RUL,CCCT,CVCT
锂离子电池无论是在军用还是民用领域都得到了广泛的应用,在锂离子电池健康评估中主要关注的参数有SOH和RUL.准确对其进行健康状态(Stateof Health, SOH)评估及剩余使用寿命(Reman ...
- Python表格数据处理方法
Python表格数据处理方法 记录了一些机器学习与数模的过程中常用到的代码 数据读写 import numpy as np import pandas as pd excel数据(.xlsx) dat ...
- Python爬虫-数据处理与存储
Python爬虫-数据处理与存储 数据处理 可以使用pandas模块来实现数据处理,pandas是一个开源的并且通过BSD许可的库.它主要为Python语言提供高性能.易于使用数据结构和数据分析工 ...
- Python股票数据处理的一些代码细节
Python股票数据处理的一些代码细节 Numpy和Pandas相关 Numpy和Pandas比较 numpy.ndarray和多类型数据 Numpy神奇的取值方法 Pandas透视表 如何删除num ...
- python气象绘图速成_基于Python气象数据处理与可视化分析
基于 Python 气象数据处理与可视化分析 张鑫 ; 曹蕾 ; 韩基良 [期刊名称] <气象灾害防御> [年 ( 卷 ), 期] 2020(027)001 [摘要] 全国综合气象信息共享 ...
最新文章
- Transformer也能生成图像
- python自动化干什么-高效工作,拒绝加班,看Python自动化功能到底有多强大
- TF之AutoML框架:AutoML框架的简介、特点、使用方法详细攻略
- 团队-Forward团队一阶段互评
- Smarty foreach
- 答网友问:如果用 OData 就能直接和 SAP 系统互通,BTP 和 CPI 这样的平台意义在哪里呢?
- 【转】从头说catalan数及笔试面试里那些相关的问题
- ​从程序员到 33 岁的亿万富翁
- 线程退出时执行函数,处理资源
- mysql 跳过一个事物_MySQL基于GTID的数据恢复
- Linux下查看NVIDIA的GPU使用情况
- CentOS7 Docker 端口映射
- 服务注册与发现-Spring Cloud Netflix-Eureka
- SpringBoot与Loki的那些事
- matlab保存pgm图形,matlab读写pgm文件
- SysML v2配置eclipse
- $‘\r‘: command not found,syntax error near unexpected token `$‘in\r‘‘
- Android_APP 微信支付接口开发
- 求菲波那切数列第n项
- 全球化观点的生产模式