在昨天的文章中,我们详细介绍了numpy,那么今天,我们就来详细了解一下它的另一个小伙伴“pandas”吧~

pandas

是基于numpy构建的,两个主要的数据结构是Series和DataFrame。

Series:

Series是一种类似一维数组的对象。




处理缺失值:删除或者填充

DataFrame:

DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等),可以看做Series组成的字典(共用一个索引)。




那么,进入正题:如何使用pyhton处理数据?

一、读取数据


共计6578行,7列数据,也可以用shape查看

二、理解数据指标含义

1.先读取前10行:head函数


2.查看列的数据类型:dtype函数

1)查看所有列的数据类型:

2)查看某一列的数据类型:

3.月均消费次数、月均消费金额、客单价等业务指标代表什么意思?

月均消费次数:一个人从开始购药到结束购药平均每月购买次数,注意每天多次购买算1次

公式:总消费次数/月份数

月均消费金额:从开始购药到结束购药平均每月消费金额

公式:总消费金额/月份数

客单价:总交易金额/客户数,此处客户数量等于社保卡号数量

三、清洗数据
1.选取子集


2.列名重命名


传入字典的形式,利用函数rename重新命名列名称,

注意:inplace=False,是默认的,不会修改数据框DataFrame

inplace=True,则修改了数据框。

3.处理缺失数据

由此可以看出删除了存在缺失值的行数为3

4.数据类型转换

数据类型需要转换为数值型,浮点数值类型,本案例已经是浮点型,知悉如何操作

使用astype函数

处理日期:

分割函数split



字符串转换为日期


转换日期格式的过程中不符合日期格式的数值将被转换为空值None,需要删除此行

5.排序



方法二:使用reset_index


6.处理异常值

如果省掉loc,则取了一列,是Series结构

如果保持完整的DataFrame,则需要使用loc函数。

四、加工数据
导出清洗后的数据excel文件:

1.计算月均消费次数

观察数据:

第一步:删除重复数据,只保留同一个社保卡号同一天一条消费记录

用到函数drop_duplicates,shape:

用excel检测是否准确:

结果显示一致,总消费次数为5323

第二步:计算月份数

第三步:月均消费次数

2.计算月均消费金额

总消费金额/月份数

如果想保留两位小数:

3.计算客单价

总消费金额/社保卡数量

检查一下:


了解更多分析及数据抓取可查看:
http://cloud.yisurvey.com:9081/html/bfd0c1a1-ea90-4ed6-9a2c-1da4cd72391c.html ?ly=csdn
本文转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请联系我们删除处理。
特别说明:本文旨在技术交流,请勿将涉及的技术用于非法用途,否则一切后果自负。如果您觉得我们侵犯了您的合法权益,请联系我们予以处理。

如何用python进行数据处理?(二)相关推荐

  1. 如何用python制作动态二维码,提升表白成功率?

    来源:凹凸数据 本文约1000字,建议阅读5分钟. 本文教你用python制作动态二维码,助你表白成功! 关注数据派THU(DatapiTHU)后台回复"20200520"获取完整 ...

  2. 深入浅出python机器学习_如何用python画(绘制)二维函数(二维图)?

    参考文档 python 如何绘制二维函数? from matplotlib import pyplot as plt import numpy as np low=lambda x:10000 if ...

  3. python 如何判断excel单元格为空_如何用python处理excel(二)

    读取excel import xlrdworkbook=xlrd.open_workbook(r'C:\Users\Desktop\hebing\学生登记表.xls')sheet=workbook.s ...

  4. Python panads数据处理二

    基于pandas DF的数据规整:清理,转化,合并,重塑. 大多时候存放在数据库中的原始表格数据不能满足某次数据处理的要求:或者你需要更改原始的数据表现形式,都需要进行数据的整理. 合并数据集(DF表 ...

  5. 如何用python制作动态二维码,来哄女朋友开心?

    1 前言 在如今信息发达的时代,二维码已经是人们生活中不可或缺的东西.比如几乎每天都要vb.net教程 用的微信或支付宝支付.那么如何可以制作一个二维码呢?小编将在本文中给大家分享一个自制的二维码生成 ...

  6. Python地理数据处理 二:Python基础知识

    目录 1.编写执行代码 2.脚本结构 3.变量 4.数据类型 4.1 布尔型 4.2 数值型 4.3 字符串 4.3.1 连接字符串 4.3.2 转义字符 4.4 列表和元组 4.5 集合 4.6 字 ...

  7. 用 Python 做动态二维码哄女友开心

    如何用python制作动态二维码,来哄女朋友开心? 这句话前半部分相信大家已经很熟悉了,很多同学也给自己的网站地址做过图片为底的二维码. 后半部分呢?那肯定要增加一些趣味啊,不然岂不是对不起凹凸数据的 ...

  8. python制作微信个人二维码_如何用Python制作微信好友个性签名词云图

    前言 上次查看了微信好友的位置信息,想了想,还是不过瘾,于是就琢磨起了把微信好友的个性签名拿到,然后分词,接着分析词频,最后弄出词云图来. 1.环境说明 Win10 系统下 Python3,编译器是 ...

  9. 如何用python画出中国地图-用Python画中国地图(二)

    在上一篇文章<用Python画一个中国地图>中,我们简单描述了一下如何用Python快速画出一个中国地图的轮廓,似乎没有什么实用价值,这一次我们用实际数据填充它,使它看上去更有意义. 上色 ...

最新文章

  1. 阿里云开发者大会:资源加应用酝酿云存储变局
  2. python list常用方法_Python中列表(List)的基本用法
  3. java web编写计算器_javaWeb 使用 jsp 和 javaBean 实现计算器功能
  4. java file 对象_Java里File对象的问题。
  5. 前端websocket获取数据后需要存本地吗_是什么让我放弃了restful api?了解清楚后我全面拥抱GraphQL...
  6. 二维码研究综述--传统图像处理方法
  7. 开发经验分享_06_前端开发技巧
  8. 《构建之法》第十三章学习总结
  9. springcloud使用zipkin实现链路追踪与监控
  10. Django 2.0 学习(12):Django 模板语法
  11. hive的inputStream
  12. Scikit-Learn (1.Sklearn提供的常用数据集 - 自带的小数据集)
  13. 不可见的unicode字符
  14. 中小企业申报高新技术企业
  15. oracle中查找某一个时间段内的数据
  16. Apple’s Secret? It Tells Us What We Should Love
  17. 手把手教你做出数据可视化项目(三)3D地球旋转
  18. 高等数学笔记-苏德矿-第十章-曲线积分和曲面积分-第七节-高斯公式与斯托克斯公式
  19. 【自动化】手把手教你一个1秒钟归纳整理海量文件的python小技巧
  20. 小竹关禁闭(线性dp

热门文章

  1. 【算法】深度搜索(DFS) 和 广度搜索(BFS)
  2. stack.peek
  3. 基于Python实现并测试Modularity算法
  4. VR产品为什么没有火起来
  5. 农信计算机资料录入试题,农村信用社计算机考试试题.docx
  6. 第二类曲线、曲面积分计算公式
  7. 用C++实现魔方并输出步骤
  8. Codeforces Round #643 (Div. 2) E. Restorer Distance 题解(三分)
  9. matlab位移反分析公式,位移反分析.doc
  10. [摘录]第4章 不道德的谈判策略