用Python进行数据分析时常用包有numpy、scipy、pandas,matplotlib,由于自己现在还是数据分析的初级阶段,一般情况下numpy、pandas、matplotlib包的一些基本知识就够自己在数据分析时使用了。接下来为大家数理下这几个包的使用

阅读路线

numpy包学习

pandas包学习

python绘图

numpy包的学习

numpy是Python的数值计算扩展,专门用来处理矩阵,你可能也会想Python本身不是有list吗,为什么不直接用呢,答案是numpy的运算效率要远比列表要高效的多。

numpy是n维的数组对象,叫做ndarray.其中创建数组用的函数是numpy包中的array函数。

创建一个一维数组

创建一个二维数组

嵌套的列表会被转换成多位数组,也是叫矩阵。同时array数组要求内部的元素为相同的类型。

数组的批量计算

查找

其实数组的索引和列表是相似的,通过方括号和数字即可完成,也可以进行赋值

对多维度数组进行查找

转置

这里只是简单介绍了numpy包的入门,numpy还是有很多的操作,但是对于初级的数据分析师来说,pandas这个包则是更为常用,所以下面集中火力讲这方面的知识。

pandas的学习

pandas有两个主要的数据结构,Series和DataFrame,此时还应该注意他们的大小写。Series其实类似于一维数组,和numpy的array接近,是由一组数据和数据标签来组成的,很显然,数据标签有索引的作用。

Series

用Series函数生成数组,其中能够很明显的看到,这里生成的数组和通过array函数生成的不一样。左边是索引,右边是标签。其实还是可以定义索引的。

获取一个数据或是一组数据

并且选取多个数据的时候,应该用列表表示多个索引。如果数据是字典,也可以直接通过字典创建列表

其实字典key就是列表的索引.

DataFrame

Series是一维的数据结构,DataFrame是一个表格型的数据结构,有不同的列,并且每一列都可以是不同的数据类型。我们可以把它类似于Excel或者是SQL

下面用传入字典的方法来创建一个DataFrame结构

DataFrame中通过info函数直接查看数据类型和统计

两种索引方式进行选取列

用索引字段ix的方式选取行

列可以通过赋值的方式修改和添加,当列的名称是全新,则会在DataFrame的最右边自动加上新的一列。

DataFrame在数据选取上面的诸多使用:

Paste_Image.png

进行我们常用的逻辑判断

当行和列需要同时选择的时候,用ix,之间用逗号分割,逗号前是想要选择的行,逗号后是想要选择的列。

numpy和pandas的基础差不多就这么多了,剩下的就要在练习中来掌握了。

Python绘图

Python进行数据分析时,matplotlib和pandas是绘图方面最常用到的两个库,下面简单介绍下如何使用。

matplotlib库的应用

%matplotlib inline #使用R语言中的ggplot2配色作为绘图风格,为好看

plt.style.use("ggplot") #%matplotlib inline是jupyter自带的方式,允许图表在cell中输出。

import numpy as np

import matplotlib.pyplot as plt

#第一步:建立空白图,也可以指定所建立图的大小,添加figsize=()

fig1 = plt.figure()

#第二步:创建subplot,一个窗口可以添加多个子绘图区。其中subplot()函数中的三个数字,第一个表示Y轴方向的子图个数,

第二个表示X轴方向的子图个数,第三个则表示当前要画图的焦点。

ax1=plt.subplot(2,2,1)

ax2=plt.subplot(2,2,2)

ax3=plt.subplot(2,2,3)

ax4=plt.subplot(2,2,4)

#第三步:subplot中绘图

调用子绘图区的方法,可以绘制点线图、频数图、散点图等常用图形。

ax1.plot(np.random.randn(50).cumsum(),'k--')

ax4.hist(np.random.randn(30))

#第四步:设置各种参数

ax1.set_xlim(-10,60) #set_xlims设置坐标轴的上下限

ax1.set_xticks([0,20,40,60]) #set_ticks设置坐标刻度

ax1.set_xticklabels(['a','b','c','d']) #set_ticklabel设置坐标标注

#第五步:清除和保存图形

ax1.clear()

fig1.savefig(‘.\\test.jpg’) # #windows下的路径

pandas库的应用

相比于利用matplotlib库绘图,采用pandas绘图要便捷得多。使用的是plot()方法,对于Series和DataFrame类型的数据,可以直接调用两种类型对应的plot方法,绘图时自动采用索引值绘制横坐标,采用每一列数据绘制纵坐标。这里分别以两类数据为例。

se1 = Series(np.random.randn(30).cumsum())

df = DataFrame({'a':np.random.randn(30),'b':np.random.randn(30)})

参数设置也是挺方便的,在plot()方法参数列表中添加相应参数值即可。常用的有:类型kind可设置为line(线图)、bar(垂直柱状图)、barh(水平柱状图)、kde(核密度估计图),另外还有color颜色设置、linestyle线型设置、alpha设置透明度、grid设置网格等。

import matplotlib.pyplot as plt

%matplotlib inline

plt.style.use("ggplot")

import pandas as pd

from pandas import Series,DataFrame

import numpy as np

se1 = Series(np.random.randn(30).cumsum())

df = DataFrame({'a':np.random.randn(30),'b':np.random.randn(30)})

se1.plot(kind = 'bar', color = 'g', alpha = 0.5, grid=True)

df.plot(kind = 'bar', alpha=0.5)

清除和保存图形

df.plot()

#清除绘图

_.get_figure().clear()

#关闭窗口

plt.close()

但是有的图形还是要依靠matplotlib,两者结合起来绘图将是更加的方便。

python做数据分析的包_Python数据分析包的学习相关推荐

  1. python做数据可视化视频_Python数据分析系列视频课程--玩转数据可视化

    matplotlib包是基于Python平台的统计绘图利器,是在python平台上完成数据可视化不可或缺的工具,而基于matplotlib进一步开发的seaborn,更是将数据呈现与可视化的可用性推到 ...

  2. python做统计监考课时_python数据分析之高校考试监考安排

    又到了学期的期末了,开始了每学期的监考工作.考试监考虽然是一件小事,但是如果因为某些失误而缺席,将会被认定为一次教学事故,后果非常严重,因此学校内每位老师都非常的重视. 学校每到期末的时候,都会发一份 ...

  3. python自带哪些包_python各个包的用途

    python中的多个包的用途 1.Numpy Numpy提供了两种基本的对象:ndarray和ufunc.ndarray是存储单一数据类型的多维数组,而ufunc是能够对数组进行处理的函数. N维数组 ...

  4. python中ndarray对象实例化_Python数据分析之Numpy学习 2——NumPy 基础 ndarray对象

    Python数据分析之Numpy学习 2 -- NumPy 基础学习 NumPy(Numerical Python)是高性能科学计算和数据分析的基础包.NumPy的主要对象是同构数据多维容器(homo ...

  5. python便捷数据怎么获取_Python数据分析入门——从数据获取到可视化

    基本信息 作者: 沈祥壮 ISBN:9787121336539 上架时间:2018-3-22 出版日期:2018 年3月 开本:16开 页码:260 版次:1-1 [插图] 编辑推荐 了解基本的Pyt ...

  6. python 心电处理包_python 黏包现象及其解决方案

    一.数据缓冲区 缓冲区(buffer),它是内存空间的一部分.也就是说,在内存空间中预留了一定的存储空间,这些存储空间用来缓冲输入或输出的数据,这部分预留的空间就叫做缓冲区,显然缓冲区是具有一定大小的 ...

  7. python数据可视化源码_Python数据分析:数据可视化实战教程

    明确三个步骤: 确定问题,选择图形 转换数据,应用函数 参数设置,一目了然 下面,我们通过案例来进行演示: %matplotlib inline import numpy as np import p ...

  8. python pandas 分类汇总用法_python数据分析之pandas常用命令整理

    原标题:python数据分析之pandas常用命令整理 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的.Pandas 纳入了大量库和一些标准的数据模型 ,提供了高效地 ...

  9. python做图像处理快不快_Python 图像读写谁最快?不信就比一比

    图像处理,顾名思义,是对图像进行的各种转换.计算等处理.图像处理必不可少地需要读写图像文件. 图像文件的读取,就是将图像数据从磁盘中的文件内读入内存,之后按照图像解码标准解码,最后把图像各像素的值存储 ...

  10. python做exe开发教程_python做exe开发教程

    python做exe开发教程内容摘要 python做exe开发教程其他方法无效时可用免疫抑制剂,交通部监理员教程证,6.客户端的异常测试.6.机费用械性能(1)抗拉试验:酒店入职教程内容,6.9l-8 ...

最新文章

  1. JAVA引用aar_如何生成并引用aar文件
  2. 什么是 SAP UI5 的 Hybrid Web Containers
  3. jsp通过include指令引入html乱码的解决方法
  4. 经典数值优化算法--专题学习
  5. UWP通过机器学习加载ONNX进行表情识别
  6. Spring中注解注入bean和配置文件注入bean
  7. CSS+JS实现兼容性很好的无限级下拉菜单
  8. 流水线冒险及解决方法
  9. VMware 安装 Linux---错误-未找到要在其中创建新文件系统的有效设备
  10. 【2019杭电多校第七场1001=HDU6646】A+B=C(思维+多细节)
  11. DNF单机版搭建(局域网、外网)
  12. Matlab图像显示
  13. BZOJ2339[HNOI2011]卡农——递推+组合数
  14. 你应该知道的八款国产操作系统
  15. C#习题之标准体重测试
  16. 服务器信号灯一直闪烁,光猫的光信号灯一直闪红灯
  17. 知识图谱---简单实践(学习笔记)
  18. 当上技术领导以后才明白的事情
  19. 如何调用阿里云、百度云API接口
  20. Android Studio掷骰子生成随机数(Java)

热门文章

  1. VBOX下安装RHEL5.4增强工具失败的解决办法
  2. SpringMVC 的运行流程
  3. 不为人知的AI简史:人机共生梦想家,却意外促成互联网的出现
  4. 【DBA之路】第1回 表空间的做成和扩张
  5. 【网络】为什么我执行了发布操作,但是线上的资源并没有更新?
  6. 类似QQ下拉出现搜索
  7. logstash之codec插件
  8. iOS 开发笔记-plist使用
  9. ARM DS-5 Flex网络许可证编译错误“Error: C9933W: Waiting for license...”
  10. Cloudera Manager和CDH4.1的安装