该楼层疑似违规已被系统折叠 隐藏此楼查看此楼

用Python做数据分析,Numpy,Pandas,matplotlib是怎么也绕不开的三个包,我最开始学习pandas是看的《利用Python进行数据分析》,看了好几遍,不是从头到尾看了好几遍,是顺着看、挑着看、精读略读强行读,一直没坚持完整过一遍。

后来发现了广受好评的《10分钟搞定pandas》。这是官方出品的,于是我马上动手跟着做,才发现作者就是个标题党,花了一个多小时才过完一遍。我觉得书名应该是《(每天)10分钟(一周)搞定pandas》。标题党归标题党,内容还是很好的,就是我觉得还是有点偏长,尤其对于像我这样学习自制力极差的同学。

所以这篇文章,我总结了我认为的Pandas最常用的功能,供大家学习借鉴。

导入包

import pandas as pd

import numpy as np

导入数据

#默认utf-8,gbk对中文的支持更好

pd.read_csv(filename,encoding='gbk')

#key是列名,value是数据,从字典导入数据需要指定index

dict1 = {'a':1,'b':2}

df = pd.DataFrame(dict1,index=[0])

查看数据

#行数、列数

df.shape[0]

df.shape[1]

#前几行,后几行,默认为5

df.head()

df.tail(3)

#数据汇总统计

df.describe()

#数据概况

df.info()

#列名

df.columns

#数据类型

df.dtypes

#各列平均值

df.mean()

数据选取

#按列名查看某列

df[col_name]

df.col_name

#查列名看多列

df[[col1,col2]]

#按索引查看某行,第一行:

df.iloc[0]

#按索引查看某行某列,三行四列那个元素

df.iloc[2,3]

数据合并

#按行拼接

pieces = [df[2:20],df[23:30],df[35:40]]

下面这句replace知乎一直报未知错误(醉了,我在整篇文章中用二分法试出来两句),只能截图

#按列拼接

left = pd.DataFrame({'key': ['foo', 'bar'], 'col1': [1, 2]})

right = pd.DataFrame({'key': ['foo', 'bar'], 'col2': [4, 5]})

pd.merge(left,right,on='key')

#增加一列

df = pd.DataFrame(np.random.randn(8, 4), columns=['A','B','C','D'])

extra = df.iloc[-1]

data = df.append(extra)

数据清理 (注意: 修改DataFrame要赋值)

#检查是否空值,返回布尔值(True,False)

df.isnull()

#返回各列空值的个数

df.isnull().sum()

#处理空值,用x替换空值

df = df.fillna(x)

#删除包含空值的行

df = df.dropna()

#删除包含空值的列

df = df.dropna(axis=1)

数据处理

#选择某列大于1的行

df[df[colname]>1]

#选择某列包含x或者y字段的行,pandas有很多字符串处理函数

df[df[colname].str.contains(x|y)]

下面这句replace知乎一直报未知错误(再次醉了),只能截图

#转换数据类型

df.num = df.num.astype(float)

#查看某列的唯一值的个数

df.colname.value_counts()

#按照某列排序(默认升序)

df.sort_values(by = colname,ascending=True)

#应用函数,简单的可以用lambda

df.apply(lambda x:x.max()-x.min())

#复杂的可以先定义好函数

def func():

pass

df.apply(func)

#也可以用numpy自带的,例如cumsum累加

df.apply(np.cumsum)

分组聚合

#准备数据

df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',

'foo', 'bar', 'foo', 'foo'],

'B' : ['one', 'one', 'two', 'three',

'two', 'two', 'one',

python做统计分析_用Python做数据分析,Numpy,Pandas,matp相关推荐

  1. python 时间序列预测_使用Python进行动手时间序列预测

    python 时间序列预测 Time series analysis is the endeavor of extracting meaningful summary and statistical ...

  2. python 概率分布模型_使用python的概率模型进行公司估值

    python 概率分布模型 Note from Towards Data Science's editors: While we allow independent authors to publis ...

  3. python 免费空间_用python做大数据

    不学Python迟早会被淘汰?Python真有这么好的前景? 最近几年Python编程语言在国内引起不小的轰动,有超越Java之势,本来在美国这个编程语言就是最火的,应用的非常非常的广泛,而Pytho ...

  4. 学python将来做什么_学python能干嘛?

    明确目标 所谓明确目标就是要先知道,学习python的目的是为了什么? 一.Python可以做什么? 二.为了将来从来从事相关开发工作? 三.简便当前工作环境,提升工作效率? 四.不甘落后,学习一门语 ...

  5. python queue 调试_学Python不是盲目的,是有做过功课认真去了解的

    有多少伙伴是因为一句'人生苦短,我用Python'萌生想法学Python的!我跟大家更新过很多Python学习教程普及过多次的Python相关知识,不过大家还是还得计划一下Python学习路线!Pyt ...

  6. python做副业_学习Python可以做哪些副业,你是不是感觉自己错过了一个亿?

    另外小编整理了一套Python的学习资料需要的按以下步骤可获得! 1.评论 2.转发 3.关注 4.后台私信[python]即可获取! 人生苦短,我用Python. 近年来,Python凭借其简洁易入 ...

  7. python宣传海报_用Python做一个令人发疯的海报

    Python可以做海报? Python真的可以做海报吗? Python做海报,你确定不是在逗我? 重要的问题问了三遍,答案是真的可以! 今天我们就来用Python的一个比较好玩的模块来进行创作---- ...

  8. python七彩同心圆_用pygame做一个简单的python小游戏---七彩同心圆

    用pygame做一个简单的python小游戏---七彩同心圆 用pygame做一个简单的python小游戏-七彩同心圆 这个小游戏原是我同学python课的课后作业,并不是很难,就简单实现了一下,顺便 ...

  9. python做统计_利用 Python 进行统计

    你将学到什么 Create and interpret data visualizations using the Python programming language and associated ...

最新文章

  1. node java php_服务端I/O性能:Node、PHP、Java、Go的对比
  2. sicily 1004 I Conduit!
  3. 黑马程序员_Java解析网络数据流的三种特殊方法
  4. 使用cnpm代替npm
  5. Cissp-【第5章 身份与访问管理】-2021-3-14(601页-660页)
  6. silverlight, 双击事件
  7. Leetcode 48. 旋转图像 (每日一题 20210813)
  8. 专题:区块链与数据共享(上)
  9. MySQL 修改字段
  10. kubernetes service 原理解析
  11. 第二章 TestNG环境搭建
  12. C/C++ sizeof(下)
  13. (转)SQL Server当中生成一定范围的随机数
  14. Morrios灵敏度分析法
  15. 如何区分光纤跳线的颜色?
  16. meanshift聚类算法跟踪原理
  17. 看完这篇文章APP关键词覆盖增加70000|互联网行业公会
  18. 为云原生而生 DeepFlow破解混合云时代网络监控难题
  19. 毕业设计-基于MATLAB的含噪语音信号降噪处理系统
  20. 从键盘输入一元二次方程的三个系数,求其两个实根(考虑判别式可能为负的情况,还需要考虑二次项系数a和一次项系数b 是否为0的情况)。

热门文章

  1. 星星点灯(点亮LED灯)
  2. redHat 下配置 vnc 远程控制服务
  3. 日式键盘与美式键盘转换
  4. 织梦DedeCms 5.7如何更换FCK编辑器
  5. sata3.0 linux内核,编译Linux内核3.0系统出现的警告信息
  6. SUSAN算子——边缘检测
  7. arduino灯光装置_Arduino教程中级 项目一 点亮一盏灯
  8. ubuntu linux定制过程
  9. 笔记本wlan显示未开启
  10. 转载:天涯——散文天下——《劳动力短缺》——作者:南方孤驴