一.数据分析步骤

1.提出问题

2.理解数据

3.数据清洗

4.构建模型

5.数据可视化

二.朝阳医院2018年销售数据

数据导入在文件路径前加r(转义符)

文件可能有多个sheet,所以用sheet_name重命名

参数dtype=str同意先按照字符串读入,之后再转换

salesDf.head(),显示前5行,从0行开始,如果想要输入多行,可以在括号内输入数字

1.提出问题月均消费次数

月均消费金额

客单价

2.理解数据

3.清洗数据1.选择子集

用salesDf.loc选取我们想要分析的数据2.重命名

为了方面接下来的分析,用salesDf.rename函数将‘购药时间’重命名为‘销售时间’。

inplace为True表示将原列明替换,False表示新增一列3.缺失值处理

先查看下删除缺失值之前的行和列数

用dropna函数进行删除,如果删除之后,空值仍然存在,因为‘nan’本身是一个空字符串,.dropna并不会将空字符串当空值处理。因此用'np.nan'使用inplace函数代替。

dropna表示制定查询函数的列,这里指定‘销售时间’和‘社保卡号’,how=‘any’表示一行里,只要有一个空值,就将整行删除。how=‘all’表示只有当整行都是空值时,才能删除整行。4.数据类型转换

字符串转换为数值(浮点型)

字符串转换为日期类型5.数据排序

salesDf.sort_values是排序参数,其中ascending=True是升序排列,否则为降序。

na_position=‘first’表示把空值放到最前面

索引重新排序后如下6.异常值处理

通过.describe()发现最小值销量为负值,说明肯定有异常值,然后通过.local重新定义,排除异常值

4.构建模型月均消费次数

月均消费次数=总消费次数/月份数

总消费次数,同一天内,同一个人的多笔消费次数视为一次,因此需要先进行删除重复数

计算时间范围

第一步:按照销售时间升序排列

第二步:获取时间范围

第三步:计算月均消费次数月均消费金额客单价

python数据分析的步骤排序_Python数据分析相关推荐

  1. python中ndarray对象实例化_Python数据分析之Numpy学习 2——NumPy 基础 ndarray对象

    Python数据分析之Numpy学习 2 -- NumPy 基础学习 NumPy(Numerical Python)是高性能科学计算和数据分析的基础包.NumPy的主要对象是同构数据多维容器(homo ...

  2. python数据分析与爬虫区别_Python数据分析与爬虫

    数据分析重要步骤: 1.数据获取 可以进行人工收集获取部分重要数据 可以在各个数据库中导出数据 使用Python的爬虫等技术 2.数据整理 从数据库.文件中提取数据,生成DataFrame对象 采用p ...

  3. python数据分析基础 阮敬_Python数据分析用到的几个重要的库

    NumPy NumPy(Numerical Python的简称)是Python科学计算的基础包.它提供了以下功能(不限于此):快速高效的多维数组对象ndarray. 用于对数组执行元素级计算以及直接对 ...

  4. python数据分析与可视化清华大学_Python数据分析与可视化 微课视频版

    随着互联网的飞速发展,人们在互联网上的行为产生了海量数据,对这些数据存储.处理与分析带动了大数据技术的发展.其中,数据挖掘和分析技术可以帮助人们对庞大的数据进行相关分析,找到有价值的信息和规律,使得人 ...

  5. python数据分析与可视化清华大学_Python数据分析与可视化

    讲解Python数据分析与可视化中的九大模块,内容全面详实: 提供11个课程实训和2个完整的项目案例,理论结合实践 : 赠送420分钟的教学视频及丰富的配套资源,便于教师教学. 超值赠送: 教学大纲. ...

  6. python便捷数据怎么获取_Python数据分析入门——从数据获取到可视化

    基本信息 作者: 沈祥壮 ISBN:9787121336539 上架时间:2018-3-22 出版日期:2018 年3月 开本:16开 页码:260 版次:1-1 [插图] 编辑推荐 了解基本的Pyt ...

  7. python pandas 分类汇总用法_python数据分析之pandas常用命令整理

    原标题:python数据分析之pandas常用命令整理 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的.Pandas 纳入了大量库和一些标准的数据模型 ,提供了高效地 ...

  8. python如何给字符串排序_Python语言字符串排序方法

    本文主要向大家介绍Python语言字符串排序方法了,通过具体的内容向大家展示,希望对大家学习Python语言有所帮助. 一般情况下,python中对一个字符串排序相当麻烦:一.python中的字符串类 ...

  9. python数据分析案例分析题_Python数据分析-案例分析

    星火:Python数据分析基础​zhuanlan.zhihu.com 两个学习道具: 1)这个网页可以调用全球最大的搜索引擎(长按此处可以复制): 事先准备: 在notebook中想要导入Excel文 ...

最新文章

  1. Web Serveice服务代理类生成及编译
  2. 神经网络七十年:回顾与展望
  3. postgresql之数据库管理
  4. 2021年码农应该了解的所有机器学习算法
  5. 比较MongoDB在公有云上的性能:AWS、Azure和Digital Ocean
  6. Felx布局基础教程
  7. keyup常用事件_keyup事件问题
  8. 使用JDBC处理MySQL大数据
  9. 非root用户 gcc安装
  10. STM32 位段详解
  11. 为什么互联网公司需要测试人员?
  12. 工作方式 柔らかいコミュニケーション
  13. python︱模块加载(pip安装)以及pycharm安装与报错解决方式
  14. 软件类配置(三)【ubuntu16.04安装微软的AirSim自动驾驶仿真平台,并初步使用仿真。】
  15. 使用SAX读取XML文件
  16. Jetson nano 使用ROS 实现串口通信,并且解析通信协议(C++)
  17. 只有python扩展库才需要导入以后才能使用其中对象_只有Python扩展库才需要导入以后才能使用其中的对象,Python标准库不需要导入即可使用其中的所有对象和方法。...
  18. spring-boot-maven-plugin:3.0.0:repackage 报错【解决】
  19. 会议预定管理系统php,会议小管家会议预约管理系统
  20. 智能停车场ARM工控主板应用

热门文章

  1. VM虚拟机 安装OS X 错误vcpu-0:VERIFY vmcore/vmm/main/physMem_monitor.c:1123
  2. Swift学习笔记-访问控制(Access Control)
  3. UVA 10173 旋转卡壳
  4. Leetcode--287. 寻找重复数(Java)
  5. Leetcode--102. 二叉树的层次遍历
  6. java 关键字 sizeof_Java 基本数据类型 sizeof 功能
  7. java调用一个方法后怎么继续执行不等待该方法的返回_Java面试题大全2020版(二)...
  8. unordered_map使用自定义enum作为键值
  9. scala语言的底层是java实现的_2020了,每个程序员都该学习的 5 种开发语言
  10. 图书管理系统可行性分析报告范例_会做可行性分析报告贺州专家团队*金