今天用python去做一个简单的药品销售数据分析案例

一、数据分析的目的

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

本篇文章中,假设以朝阳医院2018年销售数据为例,目的是了解朝阳医院在2018年里的销售情况,这就需要知道几个业务指标,例如:月均消费次数,月均消费金额、客单价以及消费趋势。

二、数据分析基本过程

数据分析基本过程包括:获取数据、数据清洗、构建模型、数据可视化以及消费趋势分析。

1、获取数据Excel中的数据部分截图:

先导入包,然后读取文件,读取的时候用object读取,防止有些数据读不了:

然后查看这些基本信息:

总共有6578行7列数据,但是“购药时间”和“社保卡号”这两列只有6576个数据,而“商品编码”一直到“实收金额”这些列都是只有6577个数据,这就意味着数据中存在缺失值,可以推断出数据中存在一行缺失值,此外“购药时间”和“社保卡号”这两列都各自存在一个缺失数据,这些缺失数据在后面步骤中需要进一步处理。

2、数据清洗

数据清洗过程包括:选择子集、列名重命名、缺失数据处理、数据类型转换、数据排序及异常值处理。

1)选择子集

在我们获取到的数据中,可能数据量非常庞大,并不是每一列都有价值都需要分析,这时候就需要从整个数据中选取合适的子集进行分析,这样能从数据中获取最大价值。在本次案例中不需要选取子集,暂时可以忽略这一步。

2)列名重命名

在数据分析过程中,有些列名和数据容易混淆或产生歧义,不利于数据分析,这时候需要把列名换成容易理解的名称,可以采用rename函数实现:

3)缺失数据处理

获取的数据中很有可能存在缺失值,通过查看基本信息可以推测“购药时间”和“社保卡号”这两列存在缺失值,如果不处理这些缺失值会干扰后面的数据分析结果。缺失数据常用的处理方式为删除含有缺失数据的记录或者利用算法去补全缺失数据。在本次案例中为求方便,直接使用dropna函数删除缺失数据,具体如下:

(4)数据类型转换

在导入数据时为了防止导入不进来,会强制所有数据都是object类型,但实际数据分析过程中“销售数量”,“应收金额”,“实收金额”,这些列需要浮点型(float)数据,“销售时间”需要改成时间格式,因此需要对数据类型进行转换。可以使用astype()函数转为浮点型数据:

在“销售时间”这一列数据中存在星期这样的数据,但在数据分析过程中不需要用到,因此要把销售时间列中日期和星期使用split函数进行分割,分割后的时间,返回的是Series数据类型:

接着把切割后的日期转为时间格式,方便后面的数据统计:

转换日期过程中不符合日期格式的数值会被转换为空值None,这里需要删除列(销售时间,社保卡号)为空的行

5)数据排序

此时时间是没有按顺序排列的,所以还是需要排序一下,排序之后索引会被打乱,所以也需要重置一下索引。其中by:表示按哪一列进行排序,ascending=True表示升序排列,ascending=False表示降序排列:

6)异常值处理

先查看数据的描述统计信息:

通过描述统计信息可以看到,“销售数量”、“应收金额”、“实收金额”这三列数据的最小值出现了负数,这明显不符合常理,数据中存在异常值的干扰,因此要对数据进一步处理,以排除异常值的影响:

3、构建模型及数据可视化

数据清洗完成后,需要利用数据构建模型(就是计算相应的业务指标),并用可视化的方式呈现结果。

(1)业务指标1:月均消费次数月均消费次数 = 总消费次数 / 月份数

① 计算总消费次数:

② 计算月份数:

③ 计算月均消费次数:

(2)业务指标2:月均消费金额

月均消费金额 = 总消费金额 / 月份数

(3)业务指标3:客单价客单价 = 总消费金额 / 总消费次数

(4)业务指标4:消费趋势先导入相关的包:

① 分析每天的消费金额

从结果可以看出,每天消费总额差异较大,除了个别天出现比较大笔的消费,大部分人消费情况维持在500元以内。

② 分析每月的消费金额

然后把销售时间先聚合再按月分组进行分析:

结果显示,7月消费金额最少,这是因为7月份的数据不完整,所以不具参考价值。 1月、4月、5月和6月的月消费金额差异不大,2月和3月的消费金额迅速降低,这可能是2月和3月处于春节期间,大部分人都回家过年的原因。

③ 分析药品销售情况

对“商品名称”和“销售数量”这两列数据进行聚合为Series形式,方便后面统计,并按降序排序:

截取销售数量最多的前十种药品,并用条形图展示结果:

得到销售数量最多的前十种药品信息,这些信息将会有助于加强医院对药房的管理。

月均数据_药品销售数据分析案例相关推荐

  1. python医药数据分析_药品销售数据分析--python

    一.数据分析的目的 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程. 本篇文章中,假设以朝阳医院2018年销售数据为例,目的是了 ...

  2. python药店销售数据分析_药店经营数据分析案例

    关于 XX 药店 09 年 1~7 月经营数据简析 雪域飞花 受 XX 药店委托, 我们对企业 09 年 1`7 月的经营数据通过瑞商源数据分析系统进行了计 算分析,现将分析结果列示如下: 一.销售数 ...

  3. 重点客户销售数据分析python_药品销售数据分析--python

    一.数据分析的目的 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程. 本篇文章中,假设以朝阳医院2018年销售数据为例,目的是了 ...

  4. 根据医院药品销售数据分析本年度销售情况

    一.数据分析的目的 本篇文章中以某医院2018年药品销售数据为例,目的是了解该医院在2018年里的销售情况,这就需要知道几个业务指标,例如:月均消费次数,月均消费金额.客单价以及消费趋势. 二.数据分 ...

  5. 北京市朝阳医院药品销售数据分析

    目录 第1章绪论 1.1研究背景 1.2 研究目的与意义 1.3研究内容 2.1数据采集 2.1.1源数据下载 2.2.2源数据存储 2.2数据预处理 2.2.1数据预处理工具介绍及操作 2.2.2读 ...

  6. 月均数据_利用Python进行数据分析(附详细案例)

    一.前期准备 分析要用到两个包:NumPy和Pandas,首先确保jupyter中成功安装了这两个包. #导入numpy包 import numpy as np #导入pandas包 import p ...

  7. 月均数据_【分析案例】python分析医院销售数据

    @猴子 近日,刚学完Python数据分析课程,以下是课堂笔记. 数据来源:朝阳医院2018年销售数据.xlsx (为了方便大家的练习,原始数据如下.拜托,一定要点赞哦.) 链接:https://pan ...

  8. python药店销售数据分析_Python:某医院药品销售数据分析

    数据分析步骤: 提出问题-理解数据-数据清洗-构建模型-数据可视化 下面就拿2018年朝阳医院销售数据按上述步骤进行分析. 1.提出问题 根据拿到的销售数据字段信息,我们对以下三个业务指标进行分析 . ...

  9. 月均数据_三季度前20强券商私募资管月均规模下降逾7000亿元 这5家主动规模占比已超50%...

    12月30日晚间,中基协发布了2019年三季度证券公司私募资产管理月均规模前20名和主动管理月均规模前20名榜单.记者统计到,三季度不论是月均规模还是主动管理月均规模,前三名座次均为中信证券.国君资管 ...

最新文章

  1. NGS数据的Error correction方法
  2. ICLR 2021初审结果公布,高分论文有这些!
  3. ArrayList为何线程不安全,如何解决
  4. Matlab | matlab中@的用法总结(附matlab测试代码):What does “@“ do ?
  5. [Redux/Mobx] Mobx的设计思想是什么
  6. “人·机”互补路径下技能人才的培养
  7. Web3.0 兴起之际,元宇宙这杯羹怎么分?
  8. ugui源码_UGUI整体解决方案基础篇(Unity 2019)
  9. 所以進入到二十一世紀之後
  10. Java多线程详解(线程池)
  11. 企业CIO都要知道的数据中台建设五步法,用友大神十二讲就搞定
  12. Atitit zxing二维码qr码识别解析
  13. 电脑用电量_诡异!北山一空置房子用电量噌噌上涨,工作人员打开门一看……_媒体_澎湃新闻...
  14. Android手机投屏后没有声音,安卓手机镜像投屏没有声音解决办法
  15. JavaScript 根据身份证号获取年龄
  16. Java 算法:带权图Weighted Graph
  17. JavaIDE的入门教程--Eclipse
  18. 揭秘腾讯智慧城市版图:“数字政府”+“超级大脑”的新打法
  19. 异步电机变压变频控制(Asynchronous VVVF)-恒压频比控制Simulink仿真
  20. 浅谈对程序员的认识_浅谈关于程序员的本质

热门文章

  1. 华为AppCube入选Forrester《中国低代码平台市场分析报告》
  2. 15个问题自查你真的了解java编译优化吗?
  3. 对话华为云专家,摆脱无意义“内卷”
  4. 云图说|OLAP开源引擎的一匹黑马,MRS集群组件之ClickHouse
  5. 鲲鹏迁移第一批吃螃蟹的人,践行技术国际化
  6. 华为云OCR文字识别 免费在线体验!
  7. 揭秘丨7分钟看懂华为云鲲鹏Redis背后的自研技术
  8. 【华为云动态】华为云开放日发布云专家激励计划,要将开发者“宠”上天
  9. PHP+MySql+PDO实现简单登录、注册
  10. 迷宫问题c语言报告,c语言写的迷宫问题