Pandas模块,我觉得掌握这些就够用了!
背景介绍
经常会有一些朋友问我类似的问题,“哎呀,这个数据该怎么处理啊,我希望结果是这样的,麻烦刘老师帮我看看。”、“刘老师,怎么把一列数据拆分出来,并取出最后一个拆分结果呀?”、“刘老师,怎么将Json数据读入到Python中呢?”。在我看来,这些问题都可以借助于Pandas模块完成,因为Pandas属于专门做数据预处理的数据科学包。下面来介绍一下我认为Pandas模块中需要掌握的功能和函数。
数据读写
案例演示
# 读入MySQL数据库数据
# 导入第三方模块
import pymysql# 连接MySQL数据库
conn = pymysql.connect(host='localhost', user='root', password='test', database='test', port=3306, charset='utf8')
# 读取数据
user = pd.read_sql('select * from topy', conn)
# 关闭连接
conn.close()
# 数据输出
User
数据初印象
案例演示
# 数据读取
sec_cars = pd.read_table(r'C:UsersAdministratorDesktopsec_cars.csv', sep = ',')
# 预览数据的前五行
sec_cars.head()# 查看数据的行列数
print('数据集的行列数:
',sec_cars.shape)# 查看数据集每个变量的数据类型
print('各变量的数据类型:
',sec_cars.dtypes)# 数据的描述性统计
sec_cars.describe()
数据清洗
案例演示
# 数据读入
df = pd.read_excel(r'C:UsersAdministratorDesktopdata_test05.xlsx')
# 缺失观测的检测
print('数据集中是否存在缺失值:
',any(df.isnull()))# 删除法之记录删除
df.dropna()
# 删除法之变量删除
df.drop('age', axis = 1)# 替换法之前向替换
df.fillna(method = 'ffill')
# 替换法之后向替换
df.fillna(method = 'bfill')# 替换法之常数替换
df.fillna(value = 0)
# 替换法之统计值替换
df.fillna(value = {'gender':df.gender.mode()[0], 'age':df.age.mean(), 'income':df.income.median()})
类型转换与元素及运算
案例演示
# 数据读入
df = pd.read_excel(r'C:UsersAdministratorDesktopdata_test03.xlsx')# 将birthday变量转换为日期型
df.birthday = pd.to_datetime(df.birthday, format = '%Y/%m/%d')# 将手机号转换为字符串
df.tel = df.tel.astype('str')# 新增年龄和工龄两列
df['age'] = pd.datetime.today().year - df.birthday.dt.year
df['workage'] = pd.datetime.today().year - df.start_work.dt.year# 将手机号中间四位隐藏起来
df.tel = df.tel.apply(func = lambda x : x.replace(x[3:7], '****'))
# 取出邮箱的域名
df['email_domain'] = df.email.apply(func = lambda x : x.split('@')[1])# 取出人员的专业信息
df['profession'] = df.other.str.findall('专业:(.*?),')
# 去除birthday、start_work和other变量
df.drop(['birthday','start_work','other'], axis = 1, inplace = True)
数据合并、连接与汇总
案例演示
真正的善良,在于收钱办事
奥巴马买了部纪录片,介绍中国企业家开了一间《美国工厂》
小红书,“黄”了
Pandas模块,我觉得掌握这些就够用了!相关推荐
- python avg函数在哪个模块_python数据处理工具–Pandas模块
健壮的数据处理模块Pandas,能够处理数据的预处理作业,如数据类型的转化.缺失值的处理.描绘性核算分析和数据的汇总等 一.序列与数据框的结构 Pandas模块的中心操作政策为序列和数据框.序列指数据 ...
- pandas 模块学习
2019独角兽企业重金招聘Python工程师标准>>> pandas模块 方法有两个 1.在windows下安装pandas,只安装pandas一个包显然是不够的,它并没有把用到的相 ...
- Python中的pandas模块学习
本文是基于Windows系统环境,学习和测试pandas模块: Windows 10 PyCharm 2018.3.5 for Windows (exe) python 3.6.8 Windows x ...
- python怎么安装pandas模块-python如何导入安装pandas模块并使用别名
Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持. Pandas的名称来自于面板数据(panel data)和python数据分析(data anal ...
- python xlrd xlwt pandas 模块 区别_python如何读写excel文件|python教程|python入门|python教程...
https://www.xin3721.com/eschool/pythonxin3721/ python读写excel的方式有很多,不同的模块在读写的方法上稍有区别: 用xlrd和xlwt进行exc ...
- Python pandas模块输出每行中间省略号问题
关于Python数据分析中pandas模块在输出的时候,每行的中间会有省略号出现,和行与行中间的省略号....问题,其他的站点(百度)中的大部分都是瞎写,根本就是复制黏贴以前的版本,你要想知道其他问题 ...
- bufferedreader读取中文乱码_python之pandas模块关于csv文件乱码问题解决
介绍 相信部分小伙伴们在处理windows系统生成的csv文件时会遇到中文显示乱码的问题,尤其是使用Excel打开这类文件时这类问题尤为突出. 解决 如图,我们通过Excel工具打开该csv文件时,中 ...
- python pandas模块_Python3.5 Pandas模块中Series用法详解
Python3.5 Pandas模块中Series用法实例 本文实例讲述了Python3.5 Pandas模块之Series用法.分享给大家供大家参考,具体如下: 1.Pandas模块引入与基本数据结 ...
- [转载] python中的numpy模块和pandas模块的区别_numpy 模块和 pandas 模块
参考链接: Python中的numpy.radians和deg2rad 一.numpy模块 1.1 numpy 简介 numpy是python的一种开源的数值计算扩展库,这种库可用来存储和处理大型nu ...
- Python Pandas模块教程
Python Pandas模块 (Python Pandas Module) Pandas is an open source library in Python. It provides ready ...
最新文章
- python 分班_Python学习作业一
- 为Linux命令起别名
- iOS 判断纯汉字,还是是否含有汉字
- leetcode657. 机器人能否返回原点
- 社交系统ThinkSNS-plus(TS+)V1.0发布!
- hibernate entity使用sequence方式时,id增量50且与sequence值不一致的问题
- getContext() , getApplicationContext() , getBaseContext() and “this”的区别
- TutorialGateway 中文系列教程【翻译完成】
- 建立唯一索引后mysql策略_【MySQL】MySQL索引背后的之使用策略及优化【转】
- 多个模块使用python logging
- Linkage 使用方法总结
- 外网访问Vmware虚拟机中的某个服务(如http)
- 如何快速辨识四位数字贴片电阻阻值
- Win10系统开启黑暗主题
- MQTT(1):项目应用简介
- 希尔贝壳荣获“北京市创新型中小企业”称号
- android手机主板,主板芯片全解
- zzulioj1134: 字符串转换
- ANT 下载,ant的配法及用法
- 雅可比矩阵matlab实现