百度云代码连接:http://pan.baidu.com/s/1hr4QGgG 密码:puxw

boxplot 箱形图

catering_sale = '../data/catering_sale.xls' #餐饮数据
data = pd.read_excel(catering_sale) #读取数据,指定“日期”列为索引列import matplotlib.pyplot as plt #导入图像库plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号plt.figure() #建立图像
p = data.boxplot(return_type='dict') #画箱线图,直接使用DataFrame的方法
x = p['fliers'][0].get_xdata() # 'flies'即为异常值的标签
y = p['fliers'][0].get_ydata()
y.sort() #从小到大排序,该方法直接改变原对象#用annotate添加注释
#其中有些相近的点,注解会出现重叠,难以看清,需要一些技巧来控制。
#以下参数都是经过调试的,需要具体问题具体调试。
for i in range(len(x)): if i>0:plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]),y[i]))else:plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.08,y[i]))plt.show() #展示箱线图

统计量分析

from __future__ import print_function
import pandas as pdcatering_sale = '../data/catering_sale.xls' #餐饮数据
data = pd.read_excel(catering_sale) #读取数据,指定“日期”列为索引列
data = data[(data[u'销量'] > 400)&(data[u'销量'] < 5000)] #过滤异常数据
statistics = data.describe() #保存基本统计量statistics.loc['range'] = statistics.loc['max']-statistics.loc['min'] #极差
statistics.loc['var'] = statistics.loc['std']/statistics.loc['mean'] #变异系数
statistics.loc['dis'] = statistics.loc['75%']-statistics.loc['25%'] #四分位数间距print(statistics)

帕累托图

dish_profit = '../data/catering_dish_profit.xls' #餐饮菜品盈利数据
data = pd.read_excel(dish_profit)
data = data[u'盈利'].copy()
data.sort(ascending = False)import matplotlib.pyplot as plt #导入图像库
plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号plt.figure()
data.plot(kind='bar')
plt.ylabel(u'盈利(元)')
p = 1.0*data.cumsum()/data.sum()
p.plot(color = 'r', secondary_y = True, style = '-o',linewidth = 2)
plt.annotate(format(p[6], '.4%'), xy = (6, p[6]), xytext=(6*0.9, p[6]*0.9), arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=.2")) #添加注释,即85%处的标记。这里包括了指定箭头样式。
plt.ylabel(u'盈利(比例)')
plt.show()

相关系数的 d.corr()

from __future__ import print_function
import pandas as pdcatering_sale = '../data/catering_sale_all.xls' #餐饮数据,含有其他属性
data = pd.read_excel(catering_sale) #读取数据,指定“日期”列为索引列data.corr() #相关系数矩阵,即给出了任意两款菜式之间的相关系数
data.corr()[u'百合酱蒸凤爪'] #只显示“百合酱蒸凤爪”与其他菜式的相关系数
data[u'百合酱蒸凤爪'].corr(data[u'翡翠蒸香茜饺']) #计算“百合酱蒸凤爪”与“翡翠蒸香茜饺”的相关系数

d.describe()

import pandas as pd
cc='../data/catering_sale.xls'
data=pd.read_excel(cc)
data.describe()

python 数据分析学习笔记 (第三章)相关推荐

  1. Python数据分析学习笔记:使用SciKit-Learn进行数据规范化

    Python数据分析学习笔记:使用SciKit-Learn进行数据规范化 数据规范化是数据挖掘的一项基础工作.不同评价指标往往具有不同的量纲,数值见的差别可能很大,不进行处理可能会影响到数据分析的结果 ...

  2. Python数据分析学习笔记:计算向量夹角

    Python数据分析学习笔记:计算向量夹角 通过计算两个向量夹角了解两个向量之间的相关性. # 计算向量夹角import numpy as npdef included_angle(a, b):a_n ...

  3. Python数据分析学习笔记:计算相关系数

    Python数据分析学习笔记:计算相关系数 1.相关系数概念 相关系数,或称线性相关系数.皮氏积矩相关系数(Pearson product-moment correlation coefficient ...

  4. Python数据分析学习笔记05:用户画像

    Python数据分析学习笔记05:用户画像 一.用户画像 用户画像是指根据用户的属性.用户偏好.生活习惯.用户行为等信息而抽象出来的标签化用户模型.通俗说就是给用户打标签,而标签是通过对用户信息分析而 ...

  5. (第二版)零基础入门Python小甲鱼-笔记-第三章-p5

    (第二版)零基础入门Python小甲鱼-笔记-第三章-p5 变量和字符串(下) 上节课讲了有些字符比如换行符.TAB制表符还有单引号.双引号等等...可以通过转义字符来实现,今天来谈谈原始字符串 1. ...

  6. Python数据分析学习笔记

    利用Python进行数据分析这本书,介绍了高效解决各种数据分析问题的Python语言和库,结合其他学习资源集中总结一下Python数据分析相关库的知识点. 数据分析相关库 (1) NumPy NumP ...

  7. Python 数据分析学习笔记(一):Pandas 入门

    文章目录 一.Pandas 概述 二.Series 对象 三.DataFrame 对象 四.导入外部数据 1. 导入 .xls 或 .xlsx 文件 2. 导入 .csv 文件 3. 导入 .txt ...

  8. 【Python数据分析学习笔记Day3】(三)数据分析工具pandas,数据清洗,聚类K-Means

    Pandas学习 https://blog.csdn.net/qq_41251963/article/details/103904044 Pandas数据结构 import pandas as pd ...

  9. 利用python进行数据分析学习笔记 第7章(3)

    ''' python 使用正则表达式, 也可以先 编译一个正则, 然后,用这个正则 去 match ,search , findall ''' text = "text my * IOD s ...

最新文章

  1. IBM虚拟化石油行业成功案例分享
  2. LoadRunner解决超时错误
  3. Windows下的cmd小技巧
  4. Controller中目标场景及手工场景
  5. 类库探源——System.ValueType
  6. 前端学习(2146):vue中TypeError: this.getResolve is not a function
  7. 田渊栋:博士五年总结
  8. 兰空图床Lsky Pro 免费开源图床网站程序v1.6.3
  9. oracle异步sql,Linux上Oracle是否使用异步io的诊断
  10. aws s3 静态网站_使用AWS S3存储桶启动静态网站
  11. Python还值得学吗?
  12. Linux学习笔记之(2)~linux目录树概览和说明
  13. WebService--了解wsdl文件
  14. python pyhook_Python实现监控键盘鼠标操作示例【基于pyHook与pythoncom模块】
  15. 当上拉加载更多即ion-content遇上slideBox的时候
  16. php判断百度蜘蛛ip,判断百度蜘蛛偷偷进行301转移权重 给新站提权
  17. 多媒体技术是指用计算机和相关设备,计算机多媒体技术基础知识
  18. Visual Studio远程调试程序
  19. 定义一个复数类Complex,使得代码能够进行下面的工作:
  20. 襄阳职业技术学院计算机技能高考,2021湖北技能高考襄阳职业技术学院怎么报名?...

热门文章

  1. 【贪心】Codeforces Round #436 (Div. 2) D. Make a Permutation!
  2. [译] NSCollectionView 入门教程
  3. 恶意网址提醒服务见实效
  4. nginx源码安装教程(CentOS)
  5. Shortest Distance from All Buildings
  6. CSS中background-position的使用
  7. dataguard中MRP无法启动的问题分析和解决
  8. LEMP构建高性能WEB服务器(第三版)
  9. 算法刷题-数论-质数的判定、分解质因数、筛质数
  10. 计算机网络crc校验实验报告,CRC校验实现-实验报告(附主要实现代码)