Dataset:机器学习和深度学习中对数据集进行高级绘图(数据集可视化,箱线图等)的简介、应用之详细攻略——daidingdaiding
Dataset:机器学习和深度学习中对数据集进行高级绘图(数据集可视化,箱线图等)的简介、应用之详细攻略——daidingdaiding
目录
箱线图
箱线图
箱线图(box plots):这些图显示了一个小长方形,有一个红线穿过它。红线代表此列数据的中位数(第50 百分位数),长方形的顶和底分别表示第25 百分位数和第75 百分位数(或者第一四分位数、第三四分位数)。
箱线图又叫为盒须图(box and whisker plots)。在盒子的上方和下方有小的水平线,叫作盒须(whisker)。它们分别据盒子的上边和下边是四分位间距的1.4 倍,四分位间距就是第75 百分位数和第25 百分位数之间的距离,也就是从盒子的顶边到盒子底边的距离。也就是说盒子上面的盒须到盒子顶边的距离是盒子高度的1.4 倍。这个盒须的1.4 倍距离是可以调整的,详见箱线图
的相关文档。
在有些情况下,盒须要比1.4 倍距离近,这说明数据的值并没有扩散到原定计算出来的盒须的位置。在这种情况下,盒须被放在最极端的点上。在另外一些情况下,数据扩散到远远超出计算出的盒须的位置(1.4 倍盒子高度的距离),这些点被认为是异常点。
箱线图的目的:一种比打印出数据更快、更直接的发现异常点的方法,但是最后一个环数属性(最右边的盒子)的取值范围导致其他属性都被“压缩”了(导致很难看清楚)。T1、一种简单的解决方法就是把取值范围最大的那个属性删除。
T2、画箱线图之前采用将属性值归一化:因为没有实现根据取值范围自动缩放(自适应)。在画箱线图之前将属性值归一化(normalization)。此处的归一化指确定每列数据的中心,然后对数值进行缩放,使属性1 的一个单位值与属性2 的一个单位值相同。在数据科学中有相当数量的算法需要这种归一化。例如,K-means聚类方法是根据行数据之间的向量距离来进行聚类的。距离是对应坐标上的点相减然后取平方和。单位不同,算出来的距离也会不同。到一个杂货店的距离以英里为单位是1 英里,以英尺为单位就是5 280 英尺。代码清单2-11 中的归一化是把属性数值都转换为均值为0、标准差为1 的分布。这是最通用的归一化。归一化计算用到了函数summary() 的结果。归一化后的效果如图2-11 所示。
注意归一化到标准差1.0 并不意味着所有的数据都在−1.0 和+1.0 之间。盒子的顶边和底边多少都会在−1.0 和+1.0 附近,但是还有很多数据在这个边界外。
Dataset:机器学习和深度学习中对数据集进行高级绘图(数据集可视化,箱线图等)的简介、应用之详细攻略——daidingdaiding相关推荐
- Pytorch:深度学习中pytorch/torchvision版本和CUDA版本最正确版本匹配、对应版本安装之详细攻略
Pytorch:深度学习中pytorch/torchvision版本和CUDA版本最正确版本匹配.对应版本安装之详细攻略 目录 深度学习中pytorch/torchvision版本和CUDA版本最正确 ...
- ML之模型文件:机器学习、深度学习中常见的模型文件(.h5、.keras)简介、h5模型文件下载集锦、使用方法之详细攻略
ML之模型文件:机器学习.深度学习中常见的模型文件(.h5..keras)简介.h5模型文件下载集锦.使用方法之详细攻略 目录 ML/DL中常见的模型文件(.h5..keras)简介及其使用方法 一. ...
- 机器学习与深度学习中的数学知识点汇总
点击上方"AI算法与图像处理",选择加"星标"或"置顶" 重磅干货,每天 8:25 送达 来源:SIGAI 在机器学习与深度学习中需要大量使 ...
- 【群话题精华】五月集锦—— 机器学习和深度学习中一些值得思考的问题
其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 原创声明 ...
- 机器学习、深度学习中常用的优化算法详解——梯度下降法、牛顿法、共轭梯度法
一.梯度下降法 1.总述: 在机器学习中,基于基本的梯度下降法发展了三种梯度下降方法,分别为随机梯度下降法,批量梯度下降法以及小批量梯度下降法. (1)批量梯度下降法(Batch Gradient D ...
- 在机器学习or深度学习中引入先验知识
问题来源: <Predicting optimal deep brain stimulation parameters for Parkinson's sieases using functio ...
- 机器学习及深度学习中的符号说明
文章目录 数和数组 集合和图 索引 线性代数中的操作 微积分 概率和信息论 函数 数据集和分布 数和数组 a a a 标 量 ( 整 数 或 实 数 ) 标量(整数或实数) 标量(整数或实数) a \ ...
- AI:人工智能领域之AI基础概念术语之机器学习、深度学习、数据挖掘中常见关键词、参数等5000多个单词中英文对照(绝对干货)
AI:人工智能领域之AI基础概念术语之机器学习.深度学习.数据挖掘中常见关键词.参数等5000多个单词中英文对照(绝对干货) 导读 本博主基本收集了网上所有有关于ML.DL的中文解释词汇,机 ...
- 深度学习中常用优化器算法Optimizer详解(BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam)
本文转载自:https://www.cnblogs.com/guoyaohua/p/8542554.html 在机器学习.深度学习中使用的优化算法除了常见的梯度下降,还有 Adadelta,Adagr ...
最新文章
- Hi3516ampp编译错误之ls: cannot access '/hiwork/osdrvhi3516a.C02': No such file or directory
- DataReader和DataSet区别
- Openstack Nova 源码分析 — Create instances (nova-conductor阶段)
- 可信计算3.0工程初步pdf_查校 | 英国大学工业工程与运筹学专业40个授课硕士+研究Mphil/Phd 项目汇总...
- php 获取 table,php – 获取表对象(App_Model_TableName)作为获取结果(Zend Framework)
- 为什么很多企业都喜欢鹅厂出来的产品经理?
- WAP2.0(XHTML MP)基础介绍
- mysql计算经纬度亮点之间的距离
- java进程的守护进程脚本
- 快速判断工作簿中是否存在指定工作表
- RPL(7):RFC6550翻译(7)---Upward Routes
- Webpack 配置中的一股清流
- 【数据结构】广义表的存储结构及基本运算(C语言)
- 罗振宇2018跨年演讲
- android 关闭按键灯,安卓永久关闭键盘灯的方法
- web字体库加载优化_优化Web字体以提高性能:最新技术
- 如何评估用户需求的价值?关键看4方面
- 北大青鸟BENET课程---ENBM知识点总结
- 大话Stable-Diffusion-Webui-客制化主题(一)
- 切图?切图!——切图仔htmlcss秃头指南