一. apply函数

作用:对 DataFrame 的某行/列应用函数之后,Apply 返回一些值。函数既可以使用默认的,也可以自定义。注意:在第二个输出中应用 head() 函数,因为它包含了很多行。

#创建一个新函数

def num_missing(x):

return sum(x.isnull())

#应用每一列

print "Missing values per column:"

print data.apply(num_missing, axis=0) #axis=0 defines that function is to be applied on each column

#应用每一行

print "\nMissing values per row:"

print data.apply(num_missing, axis=1).head() #axis=1 defines that function is to be applied on each row

二. loc函数

作用:选择属性子集

subSalesDf=salesDf.loc[0:4,‘购药时间‘:‘销售数量‘]

三. rename函数

作用:列重命名

colNameDict = {‘购药时间‘:‘销售时间‘} #将‘购药时间’改为‘销售时间’

salesDf.rename(columns = colNameDict,inplace=True)

四. dropna函数

作用:删除缺失值,how=‘any‘意为在给定的任何一列中有缺失值就删除

salesDf=salesDf.dropna(subset=[‘销售时间‘,‘社保卡号‘],how=‘any‘) #删除列(销售时间,社保卡号)中为空的行

五. pd.to_datetime函数

作用:字符串类型的数据转换成日期格式。传入的格式是原始数据的日期格式——format=‘%Y-%m-%d‘固定写法:Y表示年、m表示月、d表示日。

salesDf.loc[:,‘销售时间‘]=pd.to_datetime(salesDf.loc[:,‘销售时间‘],

format=‘%Y-%m-%d‘,

errors=‘coerce‘)

errors=‘coerce‘: 如果原始数据不符合日期的格式,转换后的值为空值NaT。所以转换之后我们还要运行一次删除空值的代码,因为不符合格式的日期被转变为了空值需要删除。

salesDf=salesDf.dropna(subset=[‘销售时间‘,‘社保卡号‘],how=‘any‘)

六. pd.sort_values

作用:对数据进行排序,by表示按那几列进行排序,ascending=True 表示升序排列,ascending=False表示降序排列

salesDf=salesDf.sort_values(by=‘销售时间‘, #按销售日期进行升序排列

ascending=True)

七. reset_index函数

作用:生成从0到N按顺序的索引值

salesDf=salesDf.reset_index(drop=True)

八. describe函数

作用:查看数据框中所有数据每列的描述统计信息:(count:总数,mean:平均数,std:标准差,min:最小值,25%:下四分位数,50%:中位数,75%:上四分位数,max:最大值)

salesDf.describe()

九. 删除异常值

作用:假设最小值出现了小于0的情况,分析应该是记录过程中出现错误所致。

第一步:设置查询条件,这一步返回True和false

querySer=salesDf.loc[:,‘销售数量‘]>0

第二步:应用查询条件

salesDf=salesDf.loc[querySer,:]

十. drop_duplicates函数

作用:将重复的数据删除,同一个人发生的所有消费算作一次消费,根据列名(销售时间,社区卡号),如果这两个列值同时相同,只保留1条

kpi1_Df=salesDf.drop_duplicates(

subset=[‘销售时间‘, ‘社保卡号‘]

)

十一. groupby

作用:根据某一列分组

gb=groupDf.groupby(groupDf.index.month)

对分组后的数据应用函数

mounthDf=gb.sum()

十二. 不适=使用for循环的列表生成器

作用:当一个列表中的元素是由另外一个列表中对应元素经过运算得到时,可以省去for循环,适用一行代码生成模型

x = [2,3,4,5]

out = [item*2 for item in x]

print(out)

十三. Lambda 表达式

作用:不使用def关键字,也没有return。Lambda 表达式创造的函数和普通的 def 构建的函数没什么不同,只不过函数体只有单独一个表达式而已。

double=lambda x: x*2 #double是函数名,x是参数

print(double(3))

十四. map 和 filter 函数

1. map

作用:可以与Lambda表达式同时使用,map() 函数接收一个列表,和一个函数(可以是Lambda表达式),它对列表里的每个元素调用一个函数进行处理,再将结果放进一个新列表里。

result=list(map(double,x))

print(result)

2. filter

作用:它接收一个列表,和一个规则函数,在对列表里的每个元素调用这个规则函数之后,它把所有返回值为假的元素从列表中剔除,然后返回这个过滤后的子列表。

result2=list(filter(lambda a:a>4,x))

十五. arrange 函数

作用:arange() 函数按照指定的步长返回一个等差数列。除开始和结束值之外,你还可以自定义步长和数据类型。请注意,给定的结束值参数是不会被包含在结果内的。

result= np.arange(start,stop,step)

十六. linspace 函数

作用:将给定区间进行若干等分以后的等分点组成的数列。所以你传入的参数包括开始值、结束值,以及具体多少等分。linspace() 将这个区间进行等分后,把开始值、结束值和每个等分点都放进一个 NumPy 数组里。这在做数据可视化以及绘制坐标轴的时候都很有用。

result4=np.linspace(2.0,3.0,num=5)

十七. 矩阵合并函数

1.Concat

作用:把一个或多个数据表按行(或列)的方向简单堆叠起来(看你传入的 axis 参数是 0 还是 1 咯)。

2. merge

作用:merge() 将会以用户指定的某个名字相同的列为主键进行对齐,把两个或多个数据表融合到一起。

3. join

join()和 merge() 很相似,只不过 join() 是按数据表的索引进行对齐,而不是按某一个相同的列。当某个表缺少某个索引的时候,对应的值为空(NaN)。

十八. pivot_table 函数

作用:它能帮你对一个数据表进行格式化,并输出一个像 Excel 工作表一样的表格。实际使用中,透视表将根据一个或多个键对数据进行分组统计,将函数传入参数 aggfunc 中,数据将会按你指定的函数进行统计,并将结果分配到表格中。

pivot_table(data, values=None, index=None, columns=None,aggfunc=‘mean‘, fill_value=None, margins=False, dropna=True, margins_name=‘All‘)

原文地址:https://www.cnblogs.com/HondaHsu/p/12664901.html

python数据分析函数大全_python中数据分析常用函数整理相关推荐

  1. python数据分析函数大全_Python常用数据分析函数集合

    1.Map函数 - 列表解析 ①.map()函数解析 (1).python源码信息 C:\Users\ArSang>python Python3.6.3rc1 (v3.6.3rc1:d8c174 ...

  2. Python之pandas:pandas中数据处理常用函数(与空值相关/去重和替代)简介、具体案例、使用方法之详细攻略

    Python之pandas:pandas中数据处理常用函数(与空值相关/去重和替代)简介.具体案例.使用方法之详细攻略 目录 pandas中数据处理常用函数(isnull/dropna/fillna/ ...

  3. python数据预处理代码_Python中数据预处理(代码)

    本篇文章给大家带来的内容是关于Python中数据预处理(代码),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助.1.导入标准库import numpy as np import matp ...

  4. python xlrd使用_Python中xlrd常用用法整理

    1.背景 1.1 安装模板: 到python官网下载http://pypi.python.org/pypi/xlrd模块安装,前提是已经安装了python 环境. 在cmd命令行输入:pip inst ...

  5. python数据建模数据集_Python中的数据集

    python数据建模数据集 There are useful Python packages that allow loading publicly available datasets with j ...

  6. python特殊方法大全_python中星号变量的几种特殊用法

    在Python中星号除了用于乘法数值运算和幂运算外,还有一种特殊的用法"在变量前添加单个星号或两个星号",实现多参数的传入或变量的拆解,本文将详细介绍"星号参数" ...

  7. python怎么输出结果_Python中print()常用输出方法

    print函数用法 1.输出字符串 print 'Hello World' print "Hello World" print ('Hello World') print (&qu ...

  8. python语言指令大全_Python语言----linux常用命令(14)

    文件压缩解压:bzip2 压缩:bzip2 filename ---> 删除filename文件,生成 filename.bz2 解压缩:bzip2 -d filename.bz2 ---> ...

  9. python魔术方法大全_python中魔术方法和属性汇总

    类定义后,便在内存中开辟空间存储类属性和所有的方法,其中类属性是以字典的形式进行存储.当实例化一个类时,即另开辟空间存储成员变量,以及定义变量__class__指向类的存储空间.对象中的私有变量也是可 ...

最新文章

  1. Android开发工具
  2. 利用requests库访问网站
  3. 计算机网络tcp传送,计算机网络基础课程—传输控制协议(Tcp)
  4. MySQL MyISAM/InnoDB高并发优化经验
  5. 合理设置apache的连接数及进程工作方式
  6. python 切片_零基础学python_11_列表(切片+遍历切片+复制)
  7. NASM汇编语言与计算机系统02-实模式-显存原理
  8. Ubuntu11.10 源码编译 Nginx
  9. layui第三方插件引入_插件分享 | 可以进行web爬虫的Xray插件(文章末尾有福利)...
  10. java构建模式_《Java设计模式》之构建者模式
  11. 读一本自己心爱的书,冒什么风险都是值得的
  12. lae界面开发工具入门之介绍十--如何打包资源文件?
  13. 小程序 横向 纵向排列
  14. 从2D图片生成3D点云
  15. Linus Torvalds:最庆幸的是 30 年后,Linux 不是一个“死”项目
  16. shell sftp 命令大全
  17. UnsupportedOperationException; ImmutableCollections.uoe
  18. mysql fulltext 查询,MySQL高级选择、FULLTEXT查找、执行事务、数据加密
  19. Mybatis-Plus入门案例以及使用方法
  20. PLC快速联网,实现设备远程监测管理

热门文章

  1. 电脑温度检测软件哪个好_重装电脑,用哪个软件重装系统比较好?
  2. c语言error ld returned,[Error] ld returned 1的错误
  3. php导入json文件_[php]导入超大json文件
  4. Python排序算法(一)冒泡排序、选择排序、插入排序
  5. 无尽包围html5游戏在线玩,小团体激发潜能小游戏突破自我
  6. iis7.5 php伪静态,Windows Server 2008 下WordPress IIS7.5伪静态规则设置(最新)
  7. Controller数据导出Excel 详细教程——easypoi-base,easypoi-web,easypoi-annotation
  8. 长春理工大学c语言实验题库,长春理工大学首届趣味心理知识竞赛初赛题库.doc...
  9. 封装html ui 控件,聊聊前端 UI 组件:组件设计
  10. python类的定义和创建_Python类对象的创建和使用