今天我们来讲一下用Pandas模块对数据集进行分析的时候,一些经常会用到的配置,通过这些配置的帮助,我们可以更加有效地来分析和挖掘出有价值的数据。

数据集的准备

这次我们需要用到的数据集是广为人所知的泰坦尼克号的乘客数据,我们先导入并且读取数据集

import pandas as pd
df = pd.read_csv("train.csv")

展示更多的行

Pandas默认只展示60行的数据,如果数据集当中的数量超过了60行,

pd.get_option('display.max_rows')
## 或者是
pd.options.display.max_rows

output

60

要是数据集当中的数据超过了60行,则会将中间的数据给折叠起来,展示出来前面的5行以及最后的5行,如下图所示

当然我们也可以改变最多展示出来的行数,代码如下

pd.set_option('display.max_rows', 200)

或者我们要是想将所有的数据都给展示出来的话,就设置成None,当然要是我们的数据集很长很长的话,有几万行几十万行的话,这么做可能会使得notebook崩掉

pd.set_option('display.max_rows', None)
或者是
# pd.options.display.max_rows = None

展示更多的列

同样地,pandas默认只展示20列的数据

pd.get_option('display.max_columns')
# pd.options.display.max_columns

output

20

要是数据集超过了20列的数据,中间的几列数据就会折叠起来,如下图所示

当然我们也可以改变这个值,例如当数据集当中的数据超过了50列才会被折叠,代码如下

# 当数据集当中的数据超过了50列才会被折叠
pd.set_option('display.max_columns', 50)
# pd.options.display.max_columns = 50

或者就干脆展示出来所有的列

pd.set_option('display.max_columns', None)
# pd.options.display.max_columns = None

改变列的宽度

当我们想要展示数据集当中的前5列的时候

df.head()

output

我们发现“Name”这一列当中的第二行因为字数比较多,就用了省略号来代替,这是因为Pandas对显示数据的量也是有限制的,

pd.get_option('display.max_colwidth')
# pd.options.display.max_colwidth

当然我们也能改变这个默认值,代码如下

pd.set_option('display.max_colwidth', 500)
# pd.options.display.max_colwidth = 500

或者显示出所有的内容

pd.set_option('display.max_colwidth', None)
# pd.options.display.max_colwidth = None

改变浮点数的精度

或许你也察觉到了Pandas对于浮点数的精度的展示也是有限制的,如下图所示

默认只展示小数点后面的6位小数,

pd.get_option('display.precision')
# pd.options.display.precision

output

6

要是我们只是希望展示小数点后面2位小数,则可以这么来做

pd.set_option('display.precision', 2)
# pd.options.display.precision = 2

我们来看一下最终的效果如何

df.head()

output

个性化展示数字

有时候我们遇到例如货币、百分比、小数等数字时,可以通过pandas当中的display.float_format方法来个性化展示数字,

pd.set_option('display.float_format',  '{:,.2f}'.format)
df_test

例如我们希望对数字添加百分号来展示,代码如下

pd.set_option('display.float_format', '{:.2f}%'.format)
df_test

例如我们希望在数字面前添加货币符号,代码如下

pd.set_option('display.float_format', '${:.2f}'.format)
df_test

改变图表绘制的后端

默认的Pandas模块对图表的绘制是以matplotlib为后端的,但是以此为后端绘制出来的图表并不是动态可交互的,我们可以改成以plotly或者是altair为后端来绘制图表,

import pandas as pd
import numpy as np
pd.set_option('plotting.backend', 'altair')
data = pd.Series(np.random.randn(100).cumsum())
data.plot()

小编之前写过以plotly以及altair为后端来绘制图表的教程,感兴趣的童鞋可以点击下面的链接查阅

  • 7000字 23张图,Pandas一键生成炫酷的动态交互式图表

重置回默认的配置

除了上面小编介绍的配置之外,大家也可以自行对数据集的展示的配置进行调整,首先我们看一下总共有哪些配置可以供我们来调整

pd.describe_option()

output

要是我们指定想要看横轴方向上的配置,可以这么来做

pd.describe_option("rows")

output

依次我们可以对最大展示出来的行数、最少展示出来的行数进行调整,而要是你想将所有的配置还原成默认值,可以这么来做

pd.reset_option('all')
往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载中国大学慕课《机器学习》(黄海广主讲)机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑
AI基础下载机器学习交流qq群955171419,加入微信群请扫码:

【Python】Pandas数据挖掘与分析时的常用方法相关推荐

  1. Pandas 数据挖掘与分析时的常用方法

    今天我们来讲一下用Pandas模块对数据集进行分析的时候,一些经常会用到的配置,通过这些配置的帮助,我们可以更加有效地来分析和挖掘出有价值的数据. 数据集的准备 这次我们需要用到的数据集是广为人所知的 ...

  2. Pandas数据挖掘与分析时的常用方法

    今天我们来讲一下用Pandas模块对数据集进行分析的时候,一些经常会用到的配置,通过这些配置的帮助,我们可以更加有效地来分析和挖掘出有价值的数据. 数据集的准备 这次我们需要用到的数据集是广为人所知的 ...

  3. Python pandas dataframe 分组聚合时,分组组名并入列的方法

    转载,侵删,感谢原作者 利用pandas做分组聚合时,分组组名默认是变化成index,如图 grouped = tdf.groupby('uid') mean=grouped.mean(); forw ...

  4. Python中亲和度分析时defaultdict的一种典型算法

    在做亲和度分析时,需要统计用户选择产品A之后同时选择产品B的支持度,此时需要使用defaultdict函数. 通过defaultdict(int) 生成了一个默认为0的带key(此时的key为同时包含 ...

  5. pythongetattribute_对Github上Python开源项目进行分析时遇到的一个AttributeError的解释及其解决方法。...

    最近在分析Github的Python开源项目时候遇到了一些问题,直接上传代码段: import requests import pygal from pygal.style import LightC ...

  6. 用Python进行文本分析时出现UnicodeDecodeError错误的解决方法

    问题:利用Python对文本进行分析时,出现UnicodeDecodeError: 'ascii' codec can't decode byte 0xef in position 0: ordina ...

  7. 全网最全python实现数据挖掘,数据分析(matlablib,pandas,numpy,量化分析)(附源代码)

    全网最全python实现数据挖掘,数据分析(matlablib,pandas,numpy,量化分析)(附源代码) 1.横直方图电影票房 2.散点图3月与10月每天的天气 3.条形图电影票房 4.条形图 ...

  8. Python+pandas统计每个学生学习慕课总时长

    推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),清华大学出版社,2020年6月第1次印刷 京东购买链接:https://item.jd.c ...

  9. [转载] Python pandas数据分析中常用方法

    参考链接: Python | Pandas处理文本text数据 官方教程 读取写入文件 官方IO 读取 写入 read_csv to_csv read_excel to_excel read_hdf ...

最新文章

  1. python新手项目-Python 的练手项目有哪些值得推荐?
  2. Windows下nginx-http-flv-module服务部署
  3. 机器学习(2.sklearn(Scikit-learn)库、字典数据的特征抽取)
  4. EasyUI中文帮助文档
  5. 数仓中的星型模型和雪花模型
  6. 把别人的Tcl/Tk代码加入到Go语言里2 矩形
  7. Lync 小技巧-53-Windows 2012 R2-加域-电脑-自动-登录
  8. 阶段1 语言基础+高级_1-3-Java语言高级_08-JDK8新特性_第1节 常用函数接口_16_常用的函数式接口_Function接口中的方法Apply...
  9. Linux内核配置.config文件
  10. NeatUpload的使用方式
  11. 【读书笔记】商业自传-PayPal程序员-硅谷钢铁侠-埃隆·马斯克,SpaceX CEO、特斯拉公司CEO、太阳城公司董事会主席。
  12. 基于JAVA的超市库存管理系统
  13. 图片标注工具Labelme的安装及使用方法
  14. linux vi编译显示行号,Linux系统vi或者vim编辑器中如何显示行号
  15. Qt开发,应用程序错误,应用程序无法正常启动0xc000007b
  16. 测试 这篇是拿来测试51ditu的OpenAPI的
  17. 教你用Python实现经典游戏《小蜜蜂》
  18. 遇到unhandled exception:怎么处理?
  19. js获取最近12个月
  20. OpenCV目标追踪

热门文章

  1. CodeForces 864E Fire dp递推
  2. Extjs关于alert显示不出—异步问题
  3. 高并发服务端分布式系统设计概要(上)
  4. Dynamics 365 CRM Connected Field Service 自动发送command
  5. 2018 hncpc 部分题
  6. 反网络爬虫以及解决方案
  7. layui selec下的option出现之前的渲染
  8. 六、Springmvc json数据交互
  9. python flask 学习与实战
  10. 第一个Swift程序Hello World