在对数据进行可视化时,用hist来查看单一特征是很重要的,结合着看多种图表,有助于获得对数据的进一步理解。

本篇是对 https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.hist.html 的翻译 + 个人笔记。

先从它的定义看起,这个API太常用,所以有必要深入了解一下它的具体构成。

DataFrame.hist(column=None, by=None, grid=True, xlabelsize=None, xrot=None, ylabelsize=None, yrot=None, ax=None, sharex=False, sharey=False, figsize=None, layout=None, bins=10, **kwds)

目的是对DataFrame构建一个直方图显示。

举个例子:

# 导入数据
filename = 'https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data'
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PRTATTO', 'B', 'LSTAT', 'MEDV' ]
data = read_csv(filename, names=names, delim_whitespace=True)
data.shape # (506, 14)
# 指定文件的分隔符为空格键
data.hist(sharex=False, sharey=False, xlabelsize=1, ylabelsize=1)
plt.show()

显示效果如下:

但是上面这些参数具体如何设置,就需要看看API,下面一一解读。

直方图是对数据分布的表征。这个函数会调用matplotlib.pyplot.hist(),会在DataFrame上的每个列上进行画图,也就是前面说的,这是对单个特征的显示,数据的每列是一个特征,所以画出来的效果是多个图。

bins参数进行修改,可以得到更精细的分布图示:

# 单一特征图表
data.hist(sharex=False, sharey=False, xlabelsize=1, ylabelsize=1, layout=(3,5), bins=100)
plt.show()

参数解读

参数名 类型 描述
data DataFrame pandas数据对象,存储数据
column string或者sequence 如果传递了这个参数,则画图时只用到数据的一个子集,具体是谁,由本参数值指定
by object 这就是Group By里的by,会按照分组来绘制直方图
grid boolean 是否显示坐标线
xlabelsize int 如果指定了这个值,则可以改变x-axis的标记尺寸
xrot float 旋转x轴的度数
ylabelsize int 如果指定了这个值,则可以改变y-axis的标记尺寸
yrot float 旋转y轴的度数
ax Matplot axes 指定要绘制直方图的坐标系
sharex boolean 如果axNone则默认为True否则默认为False。在subplots=True时,会共享x轴并将某个x轴设置为不可见;如果ax传递进来了,且sharex=True,会改变所有子图的x轴的标记。
sharey booelan 同理可推导出sharey的功效。
figsize tuple 单位是英寸,表示要创建的图的大小。默认使用在matplotlib.rcParams中定义的数值。
layout tuple (rows, columns),表示绘图有多少行多少列。
bins int或者sequence 默认为10,就是指定显示多少竖条
**kwds 其他的关键词参数可以在这里传递
axes(返回值) 返回一个matplotlib.AxesSubplot或者numpy.ndarray对象

案例

>>> df = pd.DataFrame({...     'length': [1.5, 0.5, 1.2, 0.9, 3],
...     'width': [0.7, 0.2, 0.15, 0.2, 1.1]
...     }, index= ['pig', 'rabbit', 'duck', 'chicken', 'horse'])
>>> hist = df.hist(bins=3)

END.

参考: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.hist.html

【机器学习】hist参数解读相关推荐

  1. python用hist参数解读

    python用hist参数解读 python 中绘制hist的方法有很多,我经常用的是matplotlib直接用x,y绘制:Dataframe直接.hist绘制: 绘制直方图 1.bins为80的图形 ...

  2. python中hist函数参数_用hist参数解释Python,python,解读

    python用hist参数解读 python 中绘制hist的方法有很多,我经常用的是matplotlib直接用x,y绘制:Dataframe直接.hist绘制: 绘制直方图 1.bins为80的图形 ...

  3. Tomcat - Tomcat 网络通信模型剖析 并发参数解读

    文章目录 什么是IO Tomcat 支持四种线程模型 Tomcat 如何使用指定IO模型 Tomcat BIO VS NIO BIO NIO 影响 BIO/NIO线程数量的多少的因素 Tomcat c ...

  4. kube-controller-manager 配置参数解读

    下面是kube-controller-manager version 1.12.0的所有配置,其中高亮加粗的是我认为需要注意的Flag. Flag Comments –allocate-node-ci ...

  5. numpy.repeat作用,语法,参数解读以及实例

    numpy.repeat() 作用 可以用于重复数组中的元素 语法 numpy.repeat(a, repeats, axis=None) 参数解读 Parameters a : array_like ...

  6. 运算放大器基本原理与参数解读

    目录 1.运放的基本结构 2.运放的参数解读 2.1 工作范围 2.2 电气参数 2.2.1 失调电压(offset voltage) 2.2.2 共模电压(VCM)和共模抑制比(CMRR) 2.2. ...

  7. 初识EMC元器件(五)——电容参数解读及选型应用

    一.什么是电容 什么是电容?这位朋友太过熟悉反而不知道该如何介绍它,也无需在此赘述.电容主要用于滤波.储能.隔直流.耦合.谐振.降压等电路中,但此次我们主要聊的是EMC滤波功能. 滤波原理:利用电容对 ...

  8. Python 机器学习 | 超参数优化 黑盒(Black-Box)非凸优化技术实践

    文章目录 一.关键原理 二.Python 实践 CSDN 叶庭云:https://yetingyun.blog.csdn.net/ 一.关键原理 为什么要做超参数优化? 机器学习建模预测时,超参数是用 ...

  9. 机器学习--模型参数优化及scoring可选参数

    全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 优化的相关的知识内容可以参考 https://blog.csdn.net/luanpeng825485697/article/deta ...

最新文章

  1. php自定义控件,小程序自定义组件的实现方法(代码)
  2. redchat怎么编写shell脚本_shell脚本编写思路
  3. dokuwiki导航的研究
  4. 00029_引用数据类型
  5. 使用java调用Web天气服务
  6. 6月第1周全球域名注册商(国际域名)新增注册量TOP15
  7. linux环境内存查询指令,帮助你检查Linux系统内存及其使用情况的命令
  8. 关于C#打包部署文件夹问题
  9. 你了解中国的中小企业了吗?
  10. [转载]提升进程权限-OpenProcessToken等函数的用法
  11. Pulseaudio之libsndfile for android(二十)
  12. c语言看门狗指令pic,PIC单片机之看门狗_看门狗定时器工作原理
  13. Wembley record broken by U2 gig U2演唱会攻破温布利
  14. SparkStreaming任务保持运行,定时任务监控进程
  15. SNMP 网络协议介绍
  16. 意法半导体 STM32F102C4 芯片解密 芯片特性
  17. Java学习个人总结
  18. 山东专利申请快速通道流程
  19. linux图像放大软件,安装及使用Waifu2x能获得更好的图像放大效果
  20. 梦龙LinkWorks协同办公平台 几处突破点

热门文章

  1. ct与x光的哪个辐射大_胸片、CT、PET/CT哪个辐射大?结果你很难猜到
  2. redis 判断存在性_一口气说出四种幂等性解决方案,面试官露出了姨母笑~
  3. github安装_安装ROS时无法初始化(无法连接raw.github)的解决方案
  4. dell inspiron 只有一个飞行模式 没有wifi_【显示器推荐③】2K常规显示器|显示器|电脑|hdr|dell|hdmi...
  5. python 标准库 excel_Python 操作 Excel 的函数库
  6. 如何给自选股票分组_手把手教你看盘界面如何设置
  7. java web 项目伪静态_【Java Web】使用URLRewrite实现网站伪静态
  8. 多重继承java_Java中的多重继承
  9. java treeset_Java TreeSet
  10. powershell文章汇总