背景介绍        

经常会有一些朋友问我类似的问题,“哎呀,这个数据该怎么处理啊,我希望结果是这样的,麻烦刘老师帮我看看。”、“刘老师,怎么把一列数据拆分出来,并取出最后一个拆分结果呀?”、“刘老师,怎么将Json数据读入到Python中呢?”。在我看来,这些问题都可以借助于Pandas模块完成,因为Pandas属于专门做数据预处理的数据科学包。下面来介绍一下我认为Pandas模块中需要掌握的功能和函数。

        数据读写        

案例演示      

# 读入MySQL数据库数据
# 导入第三方模块
import pymysql# 连接MySQL数据库
conn = pymysql.connect(host='localhost', user='root', password='test', database='test', port=3306, charset='utf8')
# 读取数据
user = pd.read_sql('select * from topy', conn)
# 关闭连接
conn.close()
# 数据输出
User

        数据初印象        

案例演示      

# 数据读取
sec_cars = pd.read_table(r'C:UsersAdministratorDesktopsec_cars.csv', sep = ',')
# 预览数据的前五行
sec_cars.head()# 查看数据的行列数
print('数据集的行列数:
',sec_cars.shape)# 查看数据集每个变量的数据类型
print('各变量的数据类型:
',sec_cars.dtypes)# 数据的描述性统计
sec_cars.describe()

        数据清洗        

案例演示      

# 数据读入
df = pd.read_excel(r'C:UsersAdministratorDesktopdata_test05.xlsx')
# 缺失观测的检测
print('数据集中是否存在缺失值:
',any(df.isnull()))# 删除法之记录删除
df.dropna()
# 删除法之变量删除
df.drop('age', axis = 1)# 替换法之前向替换
df.fillna(method = 'ffill')
# 替换法之后向替换
df.fillna(method = 'bfill')# 替换法之常数替换
df.fillna(value = 0)
# 替换法之统计值替换
df.fillna(value = {'gender':df.gender.mode()[0], 'age':df.age.mean(),     'income':df.income.median()})

    类型转换与元素及运算    

案例演示      

# 数据读入
df = pd.read_excel(r'C:UsersAdministratorDesktopdata_test03.xlsx')# 将birthday变量转换为日期型
df.birthday = pd.to_datetime(df.birthday, format = '%Y/%m/%d')# 将手机号转换为字符串
df.tel = df.tel.astype('str')# 新增年龄和工龄两列
df['age'] = pd.datetime.today().year - df.birthday.dt.year
df['workage'] = pd.datetime.today().year - df.start_work.dt.year# 将手机号中间四位隐藏起来
df.tel = df.tel.apply(func = lambda x : x.replace(x[3:7], '****'))
# 取出邮箱的域名
df['email_domain'] = df.email.apply(func = lambda x : x.split('@')[1])# 取出人员的专业信息
df['profession'] = df.other.str.findall('专业:(.*?),')
# 去除birthday、start_work和other变量
df.drop(['birthday','start_work','other'], axis = 1, inplace = True)

数据合并、连接与汇总

案例演示      

  • 真正的善良,在于收钱办事

  • 奥巴马买了部纪录片,介绍中国企业家开了一间《美国工厂》

  • 小红书,“黄”了

Pandas模块,我觉得掌握这些就够用了!相关推荐

  1. python avg函数在哪个模块_python数据处理工具–Pandas模块

    健壮的数据处理模块Pandas,能够处理数据的预处理作业,如数据类型的转化.缺失值的处理.描绘性核算分析和数据的汇总等 一.序列与数据框的结构 Pandas模块的中心操作政策为序列和数据框.序列指数据 ...

  2. pandas 模块学习

    2019独角兽企业重金招聘Python工程师标准>>> pandas模块 方法有两个 1.在windows下安装pandas,只安装pandas一个包显然是不够的,它并没有把用到的相 ...

  3. Python中的pandas模块学习

    本文是基于Windows系统环境,学习和测试pandas模块: Windows 10 PyCharm 2018.3.5 for Windows (exe) python 3.6.8 Windows x ...

  4. python怎么安装pandas模块-python如何导入安装pandas模块并使用别名

    Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持. Pandas的名称来自于面板数据(panel data)和python数据分析(data anal ...

  5. python xlrd xlwt pandas 模块 区别_python如何读写excel文件|python教程|python入门|python教程...

    https://www.xin3721.com/eschool/pythonxin3721/ python读写excel的方式有很多,不同的模块在读写的方法上稍有区别: 用xlrd和xlwt进行exc ...

  6. Python pandas模块输出每行中间省略号问题

    关于Python数据分析中pandas模块在输出的时候,每行的中间会有省略号出现,和行与行中间的省略号....问题,其他的站点(百度)中的大部分都是瞎写,根本就是复制黏贴以前的版本,你要想知道其他问题 ...

  7. bufferedreader读取中文乱码_python之pandas模块关于csv文件乱码问题解决

    介绍 相信部分小伙伴们在处理windows系统生成的csv文件时会遇到中文显示乱码的问题,尤其是使用Excel打开这类文件时这类问题尤为突出. 解决 如图,我们通过Excel工具打开该csv文件时,中 ...

  8. python pandas模块_Python3.5 Pandas模块中Series用法详解

    Python3.5 Pandas模块中Series用法实例 本文实例讲述了Python3.5 Pandas模块之Series用法.分享给大家供大家参考,具体如下: 1.Pandas模块引入与基本数据结 ...

  9. [转载] python中的numpy模块和pandas模块的区别_numpy 模块和 pandas 模块

    参考链接: Python中的numpy.radians和deg2rad 一.numpy模块 1.1 numpy 简介 numpy是python的一种开源的数值计算扩展库,这种库可用来存储和处理大型nu ...

  10. Python Pandas模块教程

    Python Pandas模块 (Python Pandas Module) Pandas is an open source library in Python. It provides ready ...

最新文章

  1. python 分班_Python学习作业一
  2. 为Linux命令起别名
  3. iOS 判断纯汉字,还是是否含有汉字
  4. leetcode657. 机器人能否返回原点
  5. 社交系统ThinkSNS-plus(TS+)V1.0发布!
  6. hibernate entity使用sequence方式时,id增量50且与sequence值不一致的问题
  7. getContext() , getApplicationContext() , getBaseContext() and “this”的区别
  8. TutorialGateway 中文系列教程【翻译完成】
  9. 建立唯一索引后mysql策略_【MySQL】MySQL索引背后的之使用策略及优化【转】
  10. 多个模块使用python logging
  11. Linkage 使用方法总结
  12. 外网访问Vmware虚拟机中的某个服务(如http)
  13. 如何快速辨识四位数字贴片电阻阻值
  14. Win10系统开启黑暗主题
  15. MQTT(1):项目应用简介
  16. 希尔贝壳荣获“北京市创新型中小企业”称号
  17. android手机主板,主板芯片全解
  18. zzulioj1134: 字符串转换
  19. ANT 下载,ant的配法及用法
  20. 雅可比矩阵matlab实现

热门文章

  1. POI实现超大数据的Excel的读写操作
  2. Java Web提交参数到Spark集群执行任务
  3. 打造最舒适的webview调试环境 1
  4. 这么多牛逼的Java常用Json库,万万没想到它的性能最好!
  5. 同事线上埋的这个坑,我整整找了3天3夜
  6. SSH和SSM两个框架的浅显的区别
  7. Anroid性能优化系列——Improving Layout Performance(二)
  8. 分布式MySQL集群方案,看看京东是怎么做的
  9. 得具备点靠钱赚钱的能力
  10. Google 中国开发者大会最后一天报名!