该楼层疑似违规已被系统折叠 隐藏此楼查看此楼

用Python做数据分析,Numpy,Pandas,matplotlib是怎么也绕不开的三个包,我最开始学习pandas是看的《利用Python进行数据分析》,看了好几遍,不是从头到尾看了好几遍,是顺着看、挑着看、精读略读强行读,一直没坚持完整过一遍。

后来发现了广受好评的《10分钟搞定pandas》。这是官方出品的,于是我马上动手跟着做,才发现作者就是个标题党,花了一个多小时才过完一遍。我觉得书名应该是《(每天)10分钟(一周)搞定pandas》。标题党归标题党,内容还是很好的,就是我觉得还是有点偏长,尤其对于像我这样学习自制力极差的同学。

所以这篇文章,我总结了我认为的Pandas最常用的功能,供大家学习借鉴。

导入包

import pandas as pd

import numpy as np

导入数据

#默认utf-8,gbk对中文的支持更好

pd.read_csv(filename,encoding='gbk')

#key是列名,value是数据,从字典导入数据需要指定index

dict1 = {'a':1,'b':2}

df = pd.DataFrame(dict1,index=[0])

查看数据

#行数、列数

df.shape[0]

df.shape[1]

#前几行,后几行,默认为5

df.head()

df.tail(3)

#数据汇总统计

df.describe()

#数据概况

df.info()

#列名

df.columns

#数据类型

df.dtypes

#各列平均值

df.mean()

数据选取

#按列名查看某列

df[col_name]

df.col_name

#查列名看多列

df[[col1,col2]]

#按索引查看某行,第一行:

df.iloc[0]

#按索引查看某行某列,三行四列那个元素

df.iloc[2,3]

数据合并

#按行拼接

pieces = [df[2:20],df[23:30],df[35:40]]

下面这句replace知乎一直报未知错误(醉了,我在整篇文章中用二分法试出来两句),只能截图

#按列拼接

left = pd.DataFrame({'key': ['foo', 'bar'], 'col1': [1, 2]})

right = pd.DataFrame({'key': ['foo', 'bar'], 'col2': [4, 5]})

pd.merge(left,right,on='key')

#增加一列

df = pd.DataFrame(np.random.randn(8, 4), columns=['A','B','C','D'])

extra = df.iloc[-1]

data = df.append(extra)

数据清理 (注意: 修改DataFrame要赋值)

#检查是否空值,返回布尔值(True,False)

df.isnull()

#返回各列空值的个数

df.isnull().sum()

#处理空值,用x替换空值

df = df.fillna(x)

#删除包含空值的行

df = df.dropna()

#删除包含空值的列

df = df.dropna(axis=1)

数据处理

#选择某列大于1的行

df[df[colname]>1]

#选择某列包含x或者y字段的行,pandas有很多字符串处理函数

df[df[colname].str.contains(x|y)]

下面这句replace知乎一直报未知错误(再次醉了),只能截图

#转换数据类型

df.num = df.num.astype(float)

#查看某列的唯一值的个数

df.colname.value_counts()

#按照某列排序(默认升序)

df.sort_values(by = colname,ascending=True)

#应用函数,简单的可以用lambda

df.apply(lambda x:x.max()-x.min())

#复杂的可以先定义好函数

def func():

pass

df.apply(func)

#也可以用numpy自带的,例如cumsum累加

df.apply(np.cumsum)

分组聚合

#准备数据

df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',

'foo', 'bar', 'foo', 'foo'],

'B' : ['one', 'one', 'two', 'three',

'two', 'two', 'one',

python做数据分析的包_用Python做数据分析,Numpy,Pandas,matp相关推荐

  1. python处理数据的包_在Python中利用Into包整洁地进行数据迁移的教程

    动机 我们花费大量的时间将数据从普通的交换格式(比如CSV),迁移到像数组.数据库或者二进制存储等高效的计算格式.更糟糕的是,许多人没有将数据迁移到高效的格式,因为他们不知道怎么(或者不能)为他们的工 ...

  2. python拦截修改数据包_会Python?那么你一定要试一试mitmproxy

    mitmproxy 是一款工具,也可以说是 python 的一个包,使用这个工具可以在命令行上进行抓包(现在也可以在web页面上查看上抓的数据包了),还可以对所抓到的包进行脚本处理,非常有用. 和 f ...

  3. python安装第三方扩展包_【Python】pip - 安装第三方包的神器

    使用Python,肯定希望使用大量成熟的第三方包,从而快速用到自己的项目. 还在一个个寻找,手动下载吗? pip就是这样一个神器,自动搜索.下载和安装第三方包: 1,首先请安装pip自己,下载地址(也 ...

  4. 用python turtle绘制表情包_使用python的turtle函数绘制一个滑稽表情

    Turtle库是Python语言中一个很流行的绘制图像的函数库,想象一个小乌龟,在一个横轴为x.纵轴为y的坐标系原点,(0,0)位置开始,它根据一组函数指令的控制,在这个平面坐标系中移动,从而在它爬行 ...

  5. python构造icmp数据包_用python篡改icmp报文再发送给接收方

    展开全部 程序处理上有些问题,建议深入研究一下ICMP协议.下面是Python 3的一个ICMP的简单实现,可以参考一下.32313133353236313431303231363533e78988e ...

  6. python类型提示模块包_(任何)python模块的类型提示是什么?

    and types.ModuleType() is a constructor. 那没关系. types.ModuleType仍然是对类型的引用,就像str和int一样.不需要通用的Module [t ...

  7. python做审计底稿视频_最新Python教学视频,每天自学俩小时,让你offer拿到手软...

    2020最新Python零基础到精通资料教材,干货分享,新基础Python教材,看这里,这里有你想要的所有资源哦,最强笔记,教你怎么入门提升!让你对自己更加有信心,重点是资料都是免费的,免费!!! 如 ...

  8. python数据分析与人工智能_人工智能 也是数据分析

    1.Python数据分析入门 数据分析:就是把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律. Python数据分析常用库:Numpy,Pandas,Matplotlib, ...

  9. python中如何创建包_如何在Python中创建命名空间包?

    TL:博士: 在Python3.3上,您不必做任何事情,只要不在名称空间包目录中放置任何__init__.py,它就可以工作了.在pre-3.3中,选择pkgutil.extend_path()解决方 ...

最新文章

  1. Docker镜像使用
  2. JW Player使用简介
  3. 解决org.apache.jasper.JasperException: Failed to load or instantiate TagLibraryVal
  4. 2021-10-20 哈希表 恋上数据结构笔记
  5. 特征对齐的旋转目标检测:Align Deep Features for Oriented Object Detection
  6. sql中的遇到的有问题的
  7. 谷歌虚拟服务器申请,【美国podserver.info】免费300M虚拟主机空间申请使用教程
  8. 会议 | 2019 全国知识图谱与语义大会 (CCKS 2019)
  9. 2009 CCTV体坛风云人物颁奖盛典,精彩语录
  10. Ribbon的初始化源码
  11. Scrapy框架(持久化,去重,深度控制,cookie)
  12. Linux(Centos7)日志管理
  13. 浙江大学计算机学院的软件工程和软件学院的软件工程哪个好,关于举办计算机技术和软件工程硕士复习班的通知-硕士招生-浙江大学计算机科学与技术学院中文站...
  14. 使用 阿里云 播放器播放 .flv 和 hls(.m3u8) 格式的视频流
  15. 打开xmind文件报错
  16. 华为高管回应养猪传闻,赋能企业用AI养好猪
  17. signature=2115bd79e3ad7a14f6ec4efd5feb6a3c,物品代码大全,来源N网
  18. Kaggle:Quora Question Pairs
  19. 凯光dk4000说明书_《凯光dk4000烟弹》用户正在提问-魔笛moti行业门户网
  20. 华为面试题目:一头牛重800kg,一座桥承重700kg,牛如何过河?最秀回答秒过!...

热门文章

  1. 关于BCH交易规范排序(CTOR)的优缺
  2. 比特币现金(BCH)将在2018年占据主导地位
  3. iOS多线程:『NSOperation、NSOperationQueue』详尽总结
  4. 树莓派搭建 DNS 服务器 | 树莓派小无相系列
  5. 零代码如何打造自己的实时监控预警系统
  6. .NET架构与模式探索
  7. APMServ 5.2.0 服务器平台搭建工具
  8. 配置Tomcat监听80端口 配置Tomcat虚拟主机 Tomcat日志
  9. MirantisOpenStack-Fuel 9.0
  10. linux下挂载windows目录