pandas: DataFrame在数据处理时一些常用的操作汇总
对自己在数据处理中经常使用却经常忘记的一些操作汇总。我用的多,大家应该用的也很多,有需要的可以转载follow。
1.dataframe数据筛选:loc,iloc,ix,at,iat
loc:需要用行列的标签进行索引。
iloc:需要用行列索引进行索引。
ix:功能更强大一些,结合了以上两种方法,既可以用标签,又可以用索引。
at:根据指定行index及列label,快速定位DataFrame的元素,选择列时仅支持列名。
iat:与at的功能相同,只使用索引参数。
2.pandas 排序sort_index,sort_values
series:
一组数组(列表或元组),series除了一组数据外还包括一组索引(即只有行索引),索引可自行定义也可利用Series(),自动生成索引;
dataframe:
是表格型数据,既有行索引又有列索引,每列数据可以为不同类型数据(数值、字符串、布尔型值),可利用DataFrame(其他数据,dataframe属性)指定dataframe的属性创建dataframe。
sort_index和sort_values 都可以对Series, dataframe,panel进行排序
DataFrame.
sort_index
(axis=0, level=None, ascending=True, inplace=False, kind='quicksort',na_position='last', sort_remaining=True, by=None)
inplace:是否替换原数据
Series.
sort_index
(axis=0, level=None, ascending=True, inplace=False, kind='quicksort',na_position='last', sort_remaining=True)
DataFrame.
sort_values
(by, axis=0, ascending=True, inplace=False, kind='quicksort',na_position='last')
na_position:nan排序的位置
Series.
sort_values
(axis=0, ascending=True, inplace=False, kind='quicksort',na_position='last')
可以看到对Series的排序没有by参数。
3.数据探索函数
3.1基本统计特征函数
统计特征函数用于计算数据的均值、方差、标准差、分位数、相关系数和协方差等,这些统计特征能反映出数据的整体分布。本小节介绍的统计特征函数主要作为Pandas的对象DataFrame或Series的方法出现。
sum():计算数据样本的总和(按列计算)
mean():计算数据样本的算术平均数
var():计算数据样本的方差
std():计算数据样本的标准差
corr(method):计算数据样本的Spearman(Pearson)相关系数矩阵,method参数为计算方法,pearson等。,、均为Series,这种格式计算两个Series之间的相关系数。
cov():计算数据样本的协方差矩阵。,,均为Series,这种格式计算两个Series之间的协方差。
skew():样本值的偏度(三阶矩)。
kurt():样本值的峰度(四阶矩)。
describe():给出样本的基本描述(基本统计量入均值、标准差等)。
SeriesGroupBy.
value_counts
(normalize=False, sort=True, ascending=False, bins=None,dropna=True):分组之后计数。
3.2拓展统计特征函数
主要有累积计算(cum)和滚动计算(pd.rolling_),如下:
cumsum():依次给出前个数的和。
cumprod():依次给出前个数的积。
summax():依次给出前个数的最大值。
summin():依次给出前个数的最小值。
rolling_sum():计算数据样本的总和(按列计算)
rolling_mean():数据样本的算术平均数。
cum系列函数是作为DataFrame或Series对象的方法而出现的,命令格式为D.cumsum(),而rolling_系列是pandas的函数,格式为pd.rolling_mean(D,k),意思是每k列计算依次均值,滚动计算。
3.3统计作图函数
plot():绘制线性二维图,折线图。
使用格式:plt.plot(x,y,S),S为绘制时图形的类型、样式和颜色。
D.plot(kind='box'),这里使用的是Dataframe或Series对象内置的方法作图,默认以index为横坐标,每列数据为纵坐标自动作图,通过kind参数指定作图类型,支持line、bar、barh、hist、box、kde、area\pie(饼图)等,同时也能接收plt.plot()中接收的参数。因此,如果数据已经被加载为Pandas中的对象,那么以这种方式作图是比较简洁的。
pie():绘制饼形图。plt.pie(size)
hist():绘制二维条形直方图,可以显示数据的分配情形。plt.hist(x,y)
boxplot():绘制样本数据的箱型图。D.boxplot()/D.plot(kind='box')
plot(logy=True):绘制y轴的对数图形
plot(yerr=error):绘制误差条形图
4.python主要的数据预处理函数
interpolate(Scipy):一维、高维数据插值
unique(Pandas/Numpy):去除数据中重复的元素,得到单值元素列表,它是对象的方法名
isnull/notnull(Pandas):判断是否空值和非空值
isna():Detect missing values (NaN in numeric arrays, None/NaN in object arrays)
PCA(Scikit-Learn):主成分分析
pandas: DataFrame在数据处理时一些常用的操作汇总相关推荐
- Python pandas dataframe 分组聚合时,分组组名并入列的方法
转载,侵删,感谢原作者 利用pandas做分组聚合时,分组组名默认是变化成index,如图 grouped = tdf.groupby('uid') mean=grouped.mean(); forw ...
- pandas dataframe 分组聚合时,分组组名并入列的方法
利用pandas做分组聚合时,分组组名默认是变化成index,如图 grouped = tdf.groupby('uid') mean=grouped.mean(); forwardmeandf=pd ...
- pandas dataframe column_数据处理的瑞士军刀pandas | 火星技术帖
免责声明:本文旨在传递更多市场信息,不构成任何投资建议.文章仅代表作者观点,不代表火星财经官方立场. 小编:记得关注哦 投资区块链,猛戳:火星财经App下载
- UIBOT调试时步入的快捷键_Idea常用快捷键操作汇总
搜索查询到常用快捷键整理如下: 自动生成代码 fori: for循环,sout: 输出打印 psvm :main方法 回车或加Tab建即可补全 soutv: 带输出字样 for(User user : ...
- [译]Go语言常用文件操作汇总
Go官方提供的文件操作标准库分散在os.ioutil等多个包中,里面有非常多的方法涵盖了文件操作的所有场景,不过因为我平时开发过程中需要直接操作文件的场景其实并不多,在加上Go标准库的文档太难搜索,每 ...
- torch.Tensor常用数据操作汇总与自动求梯度
在深度学习中,通常会频繁地对数据进行操作,在PyTorch中,torch.Tensor是存储和变换数据的主要工具(Tensor和NumPy的多维数组非常类似,Tensor提供GPU计算和自动求梯度等更 ...
- pandas DataFrame 数据处理常用操作
Xgboost调参: https://wuhuhu800.github.io/2018/02/28/XGboost_param_share/ https://blog.csdn.net/hx2017/ ...
- pandas转mysql特定列_在pandas.DataFrame.to_sql时指定数据库表的列类型
问题 在数据分析并存储到数据库时,Python的Pandas包提供了to_sql 方法使存储的过程更为便捷,但如果在使用to_sql方法前不在数据库建好相对应的表,to_sql则会默认为你创建一个新表 ...
- 『Python核心技术与实战』pandas.DataFrame()函数介绍
pandas.DataFrame()函数介绍! 文章目录 一. 创建DataFrame 1.1. numpy创建 1.2. 直接创建 1.3. 字典创建 1.4. Series和DataFrame 二 ...
最新文章
- react native 中下拉列表FlatList组件的讲解以及实例demo
- beego 注解路由无效问题分析
- 【转】Socket状态变迁图
- C++ Primer 5th笔记(chap 13 拷贝控制)引用计数
- 全球及中国商用卫生间纸巾分配器行业需求前景及发展趋势研究报告2021-2027年版
- 提取过程_大米多肽提取过程中如何应用膜分离技术呢?
- VM 虚拟机 centos7 安装redis
- python函数递归调用时对深度没有限制_在Python程序中设置函数最大递归深度
- MIPI接口和DVP接口的区别及优点
- Echarts设置y轴值间隔
- 版号解禁,网络游戏却未解冻
- 结合实例谈谈航拍全景的方法和技巧
- POJ1287 (最小生成树) 中文版
- 【杂记】火狐浏览器主页被2345恶意篡改解决方法
- 设计商品分类表 mysql_商品分类表设计
- Anaconda3 安装教程
- RNN-人名分类器算法
- 什么是上下文切换?如何减少上下文切换?
- emoji表情符号有时不能正常显示的问题的解决方案
- 单片机之基础编程 流水灯(二)