学习目标 通过实际案例分析掌握Numpy和Pandas的数据分析语句

本文以某医院的销售数据为例按照以下步骤进行分析:

一、提出问题

1.月均消费次数

2.月均消费金额

3.客单价

二、理解数据

导入Excel数据

import pandas as pd

# 导入Excel数据,统一先按照str读入,之后转换

fileNameStr = 'D:\\python\\朝阳医院2018年销售数据.xlsx'

xls = pd.ExcelFile(fileNameStr,dtype='object')

salesDf = xls.parse('Sheet1',dtype='object')

# 打印前几行数据验证

salesDf.head()

指定一列查看数据类型:

# 查看购药时间一列的数据类型

salesDf['购药时间'].dtype

Excel原文件:

三、数据清洗

数据清洗一般步骤:

(1)选择子集:

本数据不用选择子集

# 若需要选择子集,可使用切片功能选择子集

subsetsalesDf = salesDf.loc[0:4,'购药时间':'销售数量']

(2)列名重命名

# 字典:旧列名和新列名对应关系

colNameDict = {'购药时间':'销售时间'}

salesDf.rename(columns = colNameDict,inplace=True)

salesDf.head()

注:inplace=False,数据框本身不会变,而会创建一个改动后新的数据框,默认的inplace是

False,inplace=True,数据框本身会改动。

(3)缺失数据处理

Python中处理空值的方法比较灵活,可以使用 Dropna函数用来删除数据表中包含空值的数据,也可以使用fillna函数对空值进行填充。

# 删除列(销售时间,社保卡号)中为空的行

# how = 'any' 在给定的任何一列中有缺失值就删除

salesDf = salesDf.dropna(subset=['销售时间','社保卡号'],how='any')

print('删除缺失值后大小',salesDf.shape)

使用fillna函数把空值用0填充

salesDf = salesDf.fillna( value=0 )

(4)数据类型转换

字符串转换为数值(浮点数)

日期处理--字符串转换为日期类型

因为销售时间一列只需要日期就可以,所以提取日期,并将其转换为日期类型

注:定义函数:分割销售日期,获取销售日期

输入:timeColSer 销售时间这一列,是个Series数据类型

输出:分割后的时间,返回也是个Series数据类型

字符串转换日期:

注:format 是原始数据中日期的格式

errors='coerce' 如果原始数据不符合日期的格式,转换后的值为NaN

再删除销售时间和社保卡号两列的空值行

(5)排序

按销售时间进行升序排列

重命名行名(index)

使用reset_index重命名行名,drop=True丢弃原来的索引,重新从0设置新的索引

(6)异常值处理

# 查看每一列的描述统计信息

salesDf.describe()

因为销售数量、应收金额等不可能出现负数,删除异常值

删除异常值:通过条件判断筛选出数据

四、构建模型

业务指标1:月均消费次数 = 总消费次数/月份数

(同一天内,同一个人发生的所有消费算作一次消费)

计算总消费次数:删除重复数据

# Step1:删除重复数据

kpi1_Df = salesDf.drop_duplicates(subset = ['销售时间','社保卡号'])

# 有多少行

totalI = kpi1_Df.shape[0]

print('总消费次数:',totalI)

计算月份数:

# Step1:排序

# 按销售时间升序排序

kpi1_Df = kpi1_Df.sort_values(by='销售时间',ascending=True)

# 重命名行名

kpi1_Df=kpi1_Df.reset_index(drop=True)

# Step2:获取时间范围

# 获取最小时间值

startTime = kpi1_Df.loc[0,'销售时间']

# 获取最大时间值

endTime = kpi1_Df.loc[totalI - 1,'销售时间']

# Step3:计算月份数

# 天数

daysI = (endTime-startTime).days

# 月份数:运算符 “//” 表示取整除

# 返回商的整数部分,例如9//2 输出结果是 4

monthsI = daysI // 30

print('月份数',monthsI)

月均消费次数:

业务指标2:月均消费金额 = 总消费金额 / 月份数

# 总消费金额

totalMoney = salesDf.loc[:,'实收金额'].sum()

# 月均消费金额

monthMoney = totalMoney / monthsI

print('业务指标2:月均消费金额',monthMoney)

业务指标3:客单价 = 总消费金额 / 总消费次数

pct = totalMoney / totalI

print('客单价:',pct)

python分析每月销售数据_Python分析某医院销售数据相关推荐

  1. python高级数据分析师_python分析各大城市对数据分析师的招聘情况

    分析目的: 1.分析招聘对于学历的要求 2.分析招聘对于工作经验的要求 3.分析各城市对数据分析师的岗位需求 4.分析数据分析师的发展方向 5.分析数据分析师在全国的薪资情况

  2. python怎么清洗数据_Python分析数据之:清洗数据全攻略

    前两天翻了翻数据分析的招聘简历,看到好多公司在招聘数据分析师的时候,不管前面要求什么,都会在最后加一句:能够会Python是加分项.那Python是有多好用?今儿一篇文章教会你用Python来分析数据 ...

  3. python 统计分析apache日志_python分析apache访问日志脚本分享

    #!/usr/bin/env python # coding=utf-8 #------------------------------------------------------ # Name: ...

  4. python编写性别比例_Python分析微信好友性别比例和省份城市分布比例的方法示例【基于itchat模块】...

    本文实例讲述了Python分析微信好友性别比例和省份城市分布比例的方法.分享给大家供大家参考,具体如下: 安装itchat pip install itchat 使用 新建wxfx.py,拷贝以下代码 ...

  5. python怎么提交作业_python分析作业提交情况

    这次做一个比较贴近我实际的东西:python分析作业提交情况. 要求: 将服务器中交作业的学生(根据文件的名字进行提取)和统计成绩的表格中的学生的信息进行比对,输出所有没有交作业的同学的信息(学号和姓 ...

  6. python实现食品推荐_Python分析亚马逊赞不绝口食物评论

    1.背景: 本文是来源于Kaggle平台的亚马逊50多万条食物评论的数据集.此数据集采集时间跨度有十余年,直到2012年十月份共计有56万多条评论信息. 这些信息由食品产品号.用户信息.评分和评价文本 ...

  7. python北京房价预测_python分析——2018北京房价降了吗

    数据来源:python 爬取的链家官网二手房交易数据 数据量:有效数据约30万条,包含信息:'行政区','片区', '小区', '格局', '面积', '楼层', '建成年代', '建成年', '楼体 ...

  8. python如何提交作业_python分析作业提交情况

    这次做一个比较贴近我实际的东西: 要求: 将服务器中交作业的学生(根据文件的名字进行提取)和统计成绩的表格中的学生的信息进行比对,输出所有没有交作业的同学的信息(学号和姓名),并输出所交的作业中命名格 ...

  9. python四级词汇采集_Python分析36套四级真题获取词频最高5000个词汇,还怕四级不过么...

    前言 从历年四级英语真题中获取词频最高的 5000 个词汇 ,并进行翻译 !综合用到了爬虫 .数据分析等知识 ,亲爱的读者们还担心四级不能过么? 注:想学习Python的小伙伴们 可以进群:98463 ...

最新文章

  1. python到底能用来做啥-Python可以被用来做哪些神奇好玩的事情?
  2. Android studio3.1卡顿严重
  3. mysql利用cpu率高_MySQL高CPU使用率
  4. 《C++ Primer》7.5.2节练习
  5. UOJ351 新年的叶子
  6. 信息学奥赛一本通(1281:最长上升子序列)
  7. 想学习Python,这套教程再适合你不过了!
  8. 【洛谷P1169】[ZJOI2007]棋盘制作
  9. 2019.7.26随堂笔记
  10. C++ const修饰指针变量的位置不同代表的意义
  11. 产生1000w不重复的数字
  12. 筛数方法相关系数_相关系数的检验方法.ppt
  13. 【CF633H】Fibonacci-ish II 莫队+线段树
  14. win10 计算机网络密码怎么设置,win10系统提示windows安全 输入网络密码的设置教程...
  15. 升级mysql后zpanel无法进入_升级到mysql5.7无法启动问题解决
  16. 使用mysql解决Excel换行统计问题
  17. DPPO:Distributed Proximal Policy Optimization
  18. Angular 的 ngOnInit 和 Constructor 的区别
  19. 计算机怎么弄64位,64位系统怎么装?安装64位系统教程
  20. 量化投资与数据分析一: 如何用PYTHON下载WIND数据并转化成dataframe格式 分享

热门文章

  1. NOIP模拟赛 太阳神
  2. 芒果TV的2020:在长视频界放下野心
  3. 汽车电路的主要构成元件和电路图种类
  4. 计算机组成原理-第一章(1)-概述
  5. html怎样用for循环添加表格,萌新提问!!!如何用for循环循环表单?
  6. 云南移动机房介绍,昆明移动机房服务器托管、机柜、移动大带宽租用
  7. 经典数值RPG游戏——《魔塔》调研报告
  8. Lunatic状态(疯狂之力)
  9. 作文经典好词好句好段摘抄大全
  10. 简单步骤:Android studio 内容观察者 - 实现数据变化监测