Dataset:机器学习和深度学习中对数据集进行高级绘图(数据集可视化,箱线图等)的简介、应用之详细攻略——daidingdaiding

目录

箱线图


箱线图

箱线图(box plots):这些图显示了一个小长方形,有一个红线穿过它。红线代表此列数据的中位数(第50 百分位数),长方形的和底分别表示第25 百分位数和第75 百分位数(或者第一四分位数、第三四分位数)。
       箱线图又叫为盒须图(box and whisker plots)。在盒子的上方和下方有小的水平线,叫作盒须(whisker)。它们分别据盒子的上边和下边是四分位间距的1.4 倍,四分位间距就是第75 百分位数和第25 百分位数之间的距离,也就是从盒子的顶边到盒子底边的距离。也就是说盒子上面的盒须到盒子顶边的距离是盒子高度的1.4 倍。这个盒须的1.4 倍距离是可以调整的,详见箱线图
的相关文档。
       在有些情况下,盒须要比1.4 倍距离近,这说明数据的值并没有扩散到原定计算出来的盒须的位置。在这种情况下,盒须被放在最极端的点上。在另外一些情况下,数据扩散到远远超出计算出的盒须的位置(1.4 倍盒子高度的距离),这些点被认为是异常点。

箱线图的目的:一种比打印出数据更快、更直接的发现异常点的方法,但是最后一个环数属性(最右边的盒子)的取值范围导致其他属性都被“压缩”了(导致很难看清楚)。T1、一种简单的解决方法就是把取值范围最大的那个属性删除

T2、画箱线图之前采用将属性值归一化:因为没有实现根据取值范围自动缩放(自适应)。在画箱线图之前将属性值归一化(normalization)。此处的归一化指确定每列数据的中心,然后对数值进行缩放,使属性1 的一个单位值与属性2 的一个单位值相同。在数据科学中有相当数量的算法需要这种归一化。例如,K-means聚类方法是根据行数据之间的向量距离来进行聚类的。距离是对应坐标上的点相减然后取平方和。单位不同,算出来的距离也会不同。到一个杂货店的距离以英里为单位是1 英里,以英尺为单位就是5 280 英尺。代码清单2-11 中的归一化是把属性数值都转换为均值为0、标准差为1 的分布。这是最通用的归一化。归一化计算用到了函数summary() 的结果。归一化后的效果如图2-11 所示。

注意归一化到标准差1.0 并不意味着所有的数据都在−1.0 和+1.0 之间。盒子的顶边和底边多少都会在−1.0 和+1.0 附近,但是还有很多数据在这个边界外。

Dataset:机器学习和深度学习中对数据集进行高级绘图(数据集可视化,箱线图等)的简介、应用之详细攻略——daidingdaiding相关推荐

  1. Pytorch:深度学习中pytorch/torchvision版本和CUDA版本最正确版本匹配、对应版本安装之详细攻略

    Pytorch:深度学习中pytorch/torchvision版本和CUDA版本最正确版本匹配.对应版本安装之详细攻略 目录 深度学习中pytorch/torchvision版本和CUDA版本最正确 ...

  2. ML之模型文件:机器学习、深度学习中常见的模型文件(.h5、.keras)简介、h5模型文件下载集锦、使用方法之详细攻略

    ML之模型文件:机器学习.深度学习中常见的模型文件(.h5..keras)简介.h5模型文件下载集锦.使用方法之详细攻略 目录 ML/DL中常见的模型文件(.h5..keras)简介及其使用方法 一. ...

  3. 机器学习与深度学习中的数学知识点汇总

    点击上方"AI算法与图像处理",选择加"星标"或"置顶" 重磅干货,每天 8:25 送达 来源:SIGAI 在机器学习与深度学习中需要大量使 ...

  4. 【群话题精华】五月集锦—— 机器学习和深度学习中一些值得思考的问题

    其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 原创声明 ...

  5. 机器学习、深度学习中常用的优化算法详解——梯度下降法、牛顿法、共轭梯度法

    一.梯度下降法 1.总述: 在机器学习中,基于基本的梯度下降法发展了三种梯度下降方法,分别为随机梯度下降法,批量梯度下降法以及小批量梯度下降法. (1)批量梯度下降法(Batch Gradient D ...

  6. 在机器学习or深度学习中引入先验知识

    问题来源: <Predicting optimal deep brain stimulation parameters for Parkinson's sieases using functio ...

  7. 机器学习及深度学习中的符号说明

    文章目录 数和数组 集合和图 索引 线性代数中的操作 微积分 概率和信息论 函数 数据集和分布 数和数组 a a a 标 量 ( 整 数 或 实 数 ) 标量(整数或实数) 标量(整数或实数) a \ ...

  8. AI:人工智能领域之AI基础概念术语之机器学习、深度学习、数据挖掘中常见关键词、参数等5000多个单词中英文对照(绝对干货)

    AI:人工智能领域之AI基础概念术语之机器学习.深度学习.数据挖掘中常见关键词.参数等5000多个单词中英文对照(绝对干货) 导读      本博主基本收集了网上所有有关于ML.DL的中文解释词汇,机 ...

  9. 深度学习中常用优化器算法Optimizer详解(BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam)

    本文转载自:https://www.cnblogs.com/guoyaohua/p/8542554.html 在机器学习.深度学习中使用的优化算法除了常见的梯度下降,还有 Adadelta,Adagr ...

最新文章

  1. Hi3516ampp编译错误之ls: cannot access '/hiwork/osdrvhi3516a.C02': No such file or directory
  2. DataReader和DataSet区别
  3. Openstack Nova 源码分析 — Create instances (nova-conductor阶段)
  4. 可信计算3.0工程初步pdf_查校 | 英国大学工业工程与运筹学专业40个授课硕士+研究Mphil/Phd 项目汇总...
  5. php 获取 table,php – 获取表对象(App_Model_TableName)作为获取结果(Zend Framework)
  6. 为什么很多企业都喜欢鹅厂出来的产品经理?
  7. WAP2.0(XHTML MP)基础介绍
  8. mysql计算经纬度亮点之间的距离
  9. java进程的守护进程脚本
  10. 快速判断工作簿中是否存在指定工作表
  11. RPL(7):RFC6550翻译(7)---Upward Routes
  12. Webpack 配置中的一股清流
  13. 【数据结构】广义表的存储结构及基本运算(C语言)
  14. 罗振宇2018跨年演讲
  15. android 关闭按键灯,安卓永久关闭键盘灯的方法
  16. web字体库加载优化_优化Web字体以提高性能:最新技术
  17. 如何评估用户需求的价值?关键看4方面
  18. 北大青鸟BENET课程---ENBM知识点总结
  19. 大话Stable-Diffusion-Webui-客制化主题(一)
  20. 切图?切图!——切图仔htmlcss秃头指南

热门文章

  1. win10安装scrapy
  2. java是很厉害的么_java总是很强大吗?
  3. Weka学习五(ROC简介)
  4. stm32 DMA 配置 串口程序
  5. (1)计算机的组成及其功能
  6. 百度智能小程序开源联盟成立,首批12家成员签约
  7. 创建分区表+分区表的分类+创建散列分区表+查看散列分区表分区中的数据+创建列表分区表+查看列表分区表分区中的数据...
  8. DBA基础(一)用户授权
  9. String 字符串最长可以有多长?
  10. 史上最易懂的 Kubernetes 儿童插图指南