【Python】Pandas数据挖掘与分析时的常用方法
今天我们来讲一下用Pandas
模块对数据集进行分析的时候,一些经常会用到的配置,通过这些配置的帮助,我们可以更加有效地来分析和挖掘出有价值的数据。
数据集的准备
这次我们需要用到的数据集是广为人所知的泰坦尼克号的乘客数据,我们先导入并且读取数据集
import pandas as pd
df = pd.read_csv("train.csv")
展示更多的行
Pandas
默认只展示60
行的数据,如果数据集当中的数量超过了60行,
pd.get_option('display.max_rows')
## 或者是
pd.options.display.max_rows
output
60
要是数据集当中的数据超过了60行,则会将中间的数据给折叠起来,展示出来前面的5行以及最后的5行,如下图所示
当然我们也可以改变最多展示出来的行数,代码如下
pd.set_option('display.max_rows', 200)
或者我们要是想将所有的数据都给展示出来的话,就设置成None
,当然要是我们的数据集很长很长的话,有几万行几十万行的话,这么做可能会使得notebook
崩掉
pd.set_option('display.max_rows', None)
或者是
# pd.options.display.max_rows = None
展示更多的列
同样地,pandas
默认只展示20列的数据
pd.get_option('display.max_columns')
# pd.options.display.max_columns
output
20
要是数据集超过了20列的数据,中间的几列数据就会折叠起来,如下图所示
当然我们也可以改变这个值,例如当数据集当中的数据超过了50列才会被折叠,代码如下
# 当数据集当中的数据超过了50列才会被折叠
pd.set_option('display.max_columns', 50)
# pd.options.display.max_columns = 50
或者就干脆展示出来所有的列
pd.set_option('display.max_columns', None)
# pd.options.display.max_columns = None
改变列的宽度
当我们想要展示数据集当中的前5列的时候
df.head()
output
我们发现“Name”这一列当中的第二行因为字数比较多,就用了省略号来代替,这是因为Pandas
对显示数据的量也是有限制的,
pd.get_option('display.max_colwidth')
# pd.options.display.max_colwidth
当然我们也能改变这个默认值,代码如下
pd.set_option('display.max_colwidth', 500)
# pd.options.display.max_colwidth = 500
或者显示出所有的内容
pd.set_option('display.max_colwidth', None)
# pd.options.display.max_colwidth = None
改变浮点数的精度
或许你也察觉到了Pandas
对于浮点数的精度的展示也是有限制的,如下图所示
默认只展示小数点后面的6位小数,
pd.get_option('display.precision')
# pd.options.display.precision
output
6
要是我们只是希望展示小数点后面2位小数,则可以这么来做
pd.set_option('display.precision', 2)
# pd.options.display.precision = 2
我们来看一下最终的效果如何
df.head()
output
个性化展示数字
有时候我们遇到例如货币、百分比、小数等数字时,可以通过pandas
当中的display.float_format
方法来个性化展示数字,
pd.set_option('display.float_format', '{:,.2f}'.format)
df_test
例如我们希望对数字添加百分号来展示,代码如下
pd.set_option('display.float_format', '{:.2f}%'.format)
df_test
例如我们希望在数字面前添加货币符号,代码如下
pd.set_option('display.float_format', '${:.2f}'.format)
df_test
改变图表绘制的后端
默认的Pandas
模块对图表的绘制是以matplotlib
为后端的,但是以此为后端绘制出来的图表并不是动态可交互的,我们可以改成以plotly
或者是altair
为后端来绘制图表,
import pandas as pd
import numpy as np
pd.set_option('plotting.backend', 'altair')
data = pd.Series(np.random.randn(100).cumsum())
data.plot()
小编之前写过以plotly
以及altair
为后端来绘制图表的教程,感兴趣的童鞋可以点击下面的链接查阅
7000字 23张图,Pandas一键生成炫酷的动态交互式图表
重置回默认的配置
除了上面小编介绍的配置之外,大家也可以自行对数据集的展示的配置进行调整,首先我们看一下总共有哪些配置可以供我们来调整
pd.describe_option()
output
要是我们指定想要看横轴方向上的配置,可以这么来做
pd.describe_option("rows")
output
依次我们可以对最大展示出来的行数、最少展示出来的行数进行调整,而要是你想将所有的配置还原成默认值,可以这么来做
pd.reset_option('all')
往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载中国大学慕课《机器学习》(黄海广主讲)机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑
AI基础下载机器学习交流qq群955171419,加入微信群请扫码:
【Python】Pandas数据挖掘与分析时的常用方法相关推荐
- Pandas 数据挖掘与分析时的常用方法
今天我们来讲一下用Pandas模块对数据集进行分析的时候,一些经常会用到的配置,通过这些配置的帮助,我们可以更加有效地来分析和挖掘出有价值的数据. 数据集的准备 这次我们需要用到的数据集是广为人所知的 ...
- Pandas数据挖掘与分析时的常用方法
今天我们来讲一下用Pandas模块对数据集进行分析的时候,一些经常会用到的配置,通过这些配置的帮助,我们可以更加有效地来分析和挖掘出有价值的数据. 数据集的准备 这次我们需要用到的数据集是广为人所知的 ...
- Python pandas dataframe 分组聚合时,分组组名并入列的方法
转载,侵删,感谢原作者 利用pandas做分组聚合时,分组组名默认是变化成index,如图 grouped = tdf.groupby('uid') mean=grouped.mean(); forw ...
- Python中亲和度分析时defaultdict的一种典型算法
在做亲和度分析时,需要统计用户选择产品A之后同时选择产品B的支持度,此时需要使用defaultdict函数. 通过defaultdict(int) 生成了一个默认为0的带key(此时的key为同时包含 ...
- pythongetattribute_对Github上Python开源项目进行分析时遇到的一个AttributeError的解释及其解决方法。...
最近在分析Github的Python开源项目时候遇到了一些问题,直接上传代码段: import requests import pygal from pygal.style import LightC ...
- 用Python进行文本分析时出现UnicodeDecodeError错误的解决方法
问题:利用Python对文本进行分析时,出现UnicodeDecodeError: 'ascii' codec can't decode byte 0xef in position 0: ordina ...
- 全网最全python实现数据挖掘,数据分析(matlablib,pandas,numpy,量化分析)(附源代码)
全网最全python实现数据挖掘,数据分析(matlablib,pandas,numpy,量化分析)(附源代码) 1.横直方图电影票房 2.散点图3月与10月每天的天气 3.条形图电影票房 4.条形图 ...
- Python+pandas统计每个学生学习慕课总时长
推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),清华大学出版社,2020年6月第1次印刷 京东购买链接:https://item.jd.c ...
- [转载] Python pandas数据分析中常用方法
参考链接: Python | Pandas处理文本text数据 官方教程 读取写入文件 官方IO 读取 写入 read_csv to_csv read_excel to_excel read_hdf ...
最新文章
- python新手项目-Python 的练手项目有哪些值得推荐?
- Windows下nginx-http-flv-module服务部署
- 机器学习(2.sklearn(Scikit-learn)库、字典数据的特征抽取)
- EasyUI中文帮助文档
- 数仓中的星型模型和雪花模型
- 把别人的Tcl/Tk代码加入到Go语言里2 矩形
- Lync 小技巧-53-Windows 2012 R2-加域-电脑-自动-登录
- 阶段1 语言基础+高级_1-3-Java语言高级_08-JDK8新特性_第1节 常用函数接口_16_常用的函数式接口_Function接口中的方法Apply...
- Linux内核配置.config文件
- NeatUpload的使用方式
- 【读书笔记】商业自传-PayPal程序员-硅谷钢铁侠-埃隆·马斯克,SpaceX CEO、特斯拉公司CEO、太阳城公司董事会主席。
- 基于JAVA的超市库存管理系统
- 图片标注工具Labelme的安装及使用方法
- linux vi编译显示行号,Linux系统vi或者vim编辑器中如何显示行号
- Qt开发,应用程序错误,应用程序无法正常启动0xc000007b
- 测试 这篇是拿来测试51ditu的OpenAPI的
- 教你用Python实现经典游戏《小蜜蜂》
- 遇到unhandled exception:怎么处理?
- js获取最近12个月
- OpenCV目标追踪