Pandas 的使用
1. 访问df结构中某条记录使用loc或者iloc属性。loc是按照index或者columns的具体值,iloc是按照其序值。访问类似于ndarray的访问,用序列分别表示一维和二维的位置。
例如:missing_data.loc['MasVnrType'] 访问index为'MasVnrType'的行(如果有多行,才需要两对中括号,里面的中括号表示index列表
missing_data.loc['MasVnrType', 'Total'] 用来访问index为'MasVnrType',columns为'Total'的数据
missing_data.loc[['MasVnrType', 'MasVnrArea'], ['Total']] 访问index为'MasVnrType', 'MasVnrArea', columns为'Total'的数据
missing_data.iloc[[1]] 表示index序值为1的记录(0-indexed)
In [1]: df = DataFrame(randn(5,2),index=range(0,10,2),columns=list('AB'))In [2]: df Out[2]: A B1.068932 -0.794307 -0.470056 1.192211 -0.284561 0.7560291.037563 -0.267820 -0.538478 -0.800654In [5]: df.iloc[[2]] Out[5]: A B -0.284561 0.756029In [6]: df.loc[[2]] Out[6]: A B -0.470056 1.192211
示例代码
2. 对数据变量进行标准正态化分布类 sklearn.preprocessing.StandardScaler http://sklearn.lzjqsdd.com/modules/preprocessing.html
3. Pandas 中的空值用 None 表示
4. 两个逻辑值序列求交或者并用 & 符号或者 | 符号
5. NaN 参与数值运算的结果仍然为 NaN
6. 如果需要在 IPython Notebook 中显示作图,需要加上 %matplotlib inline
7. 将属性值作为列名进行行列转换
1. MultiIndex 对象
构建有两种方式,一种是通过 index 元组的方式,一种是通过多维列表交叉组合的方式。
2. 在通过 Series 的 unstack 方法将某一级标签转换到 columns 上。
level 参数指定转换的标签级,-1表示最里面一级。
8. 如何改变 index 或 columns 的顺序
1. 一种方式是通过 reindex_axis 函数
2. 另外一种方式是通过重新赋值来改变
test_df = test_df[train_df.columns]
改变 index 顺序:test_df = test_df.loc[index]
9. 将带有 multi-level index 的 DataFrame 对象的 index 转换为对应的 columns 插入到原本的 DataFrame 中。
pd.DataFrame.reset_index() 函数可以完成上述功能
也可以时使用 MultiIndex 对象的 to_frame() 函数直接将 MultiIndex 转换为 DataFrame。
转载于:https://www.cnblogs.com/hopelee/p/7124756.html
Pandas 的使用相关推荐
- Pandas 使用入门
Pandas 简介 运行环境 jupyter notebook python 3.6 pandas '0.20.3' matplotlib '2.1.0' 学习目标: * 大致了解 pandas 库的 ...
- modin pandas 加速
20211203 https://blog.csdn.net/BF02jgtRS00XKtCx/article/details/108988757 利用swifter加速apply Modin是一个P ...
- 利用pandas读写HDF5文件
一.简介 HDF5(Hierarchical Data Formal)是用于存储大规模数值数据的较为理想的存储格式,文件后缀名为h5,存储读取速度非常快,且可在文件内部按照明确的层次存储数据,同一个H ...
- pandas dataframe 删除带空值的行 各种空值 (dropna()、isna()、isnull()、fillna())
假设拿到一个10万行的数据后,通过isnull我们发现某列有几个空值,要把该列空值所在行删除怎么操作?用dropna()会删除所有有空值的行,请看下面实例. 区分 None,null,NULL,nan ...
- pandas以前笔记
# -*- coding: utf-8 -*- """ Created on Sat Jul 21 20:06:20 2018@author: heimi "& ...
- pandas dataframe 字符映射为数字
在机器学习中对于有序的类别型变量可以不采用onehot编码,直接使用有序数字代替即可,这个目的可以在pandas中使用map方法实现. import pandas as pd 创建数据框 raw_da ...
- pandas如何读取一个文件夹下的所有文件
from os import walk import pandas as pd dataframe_list = [] #walk会返回3个参数,分别是路径,目录list,文件list,你可以按需修改 ...
- python pandas 如何找到NaN、缺失值或者某些元素的索引名称以及位置,np.where的使用
我们在处理数据的时候,经常需要检查数据的质量,也需要知道出问题的数据在哪个位置.我找了很久,也尝试了很多办法,都没能找到一种非常直接的函数,本文所要介绍的是一种我认为比较方便的方法:np.where( ...
- pandas数据框,统计某列或者某行数据元素的个数
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/sinat_38893241/artic ...
- Pandas库常用函数和操作
目录 1. DataFrame 处理缺失值 dropna() 2. 根据某维度计算重复的行 duplicated().value_counts() 3. 去重 drop_duplicates( ...
最新文章
- c# 经验谈:巧用Expression表达式 解决类似于sql中 select in 的查询(适合于中小型项目)...
- Understanding Ethereum Smart Contracts
- php cap,PHP ImagickDraw setStrokeLineCap()用法及代码示例
- 转:Centos防火墙设置与端口开放的方法
- Leetcode 118 杨辉三角
- 魅族16s Pro邀请函发布:对称式全面屏+骁龙855Plus
- linux gfs文件系统,Linux环境下使用GFS文件系统
- 手把手让你实现postfix+extmail+mysql虚拟用户邮件体系
- CentOS7+rsync+sersync实现数据实时同步
- Atitit.编程语言的基础句型and汉语英文比较
- 虚幻引擎5安装踩坑记录
- IPQ5000/IPQ5010/IPQ5018/方案WiFi6开发 工业5G CPE
- ros使用自动驾驶数据集KITTI【1】介绍与可视化
- 如何解释vue的生命周期才能令面试官满意?
- postman--常用公共函数
- 输入的字与系统编码不符_基于小字符集藏文拉丁转写系统的设计与实现
- python安装及环境配置
- 人工智能时代将如何改变社会?
- 药物与生物大分子的相互关系(分子与药物以及人体关系)
- 电脑上的以太网连接,本地连接,宽带连接,无线WLAN连接的区别(超详细)--转载