散点图主要是度量两变量关系强弱的最直观的图形,虽然三维图形也在起着类似的作用,但就直观性上仍然不能取代二维图的效果。

不过在探索多维变量间关系上提供了非常好的视角,另外比较常用的是侦察相对回归面的异常值,尤其具有可视化的优势。至于矩阵图其本质上仍然是二维关系。

下面从不同的侧重点来说明:

1.探索数据主体模型

proc sortdata=data_anl.performance;
by scale;run;
proc sgplot data=data_anl.performance;
scatter x=gcharacteristic y=jaim /group=scale;
ellipse x=gcharacteristic y=jaim;
run;

散点的相对疏离程度主要反映在相关系数上,其趋势状况是由回归系数,或斜率来反映。

散点分布信息如线性,非线性,提供了统计模型的多项式信息;而分布的长短对应数据或统计信息的大小。图中显示了线性、且第一组提供的信息更丰富一点(方差大)。

95%的预测区间,给出了数据的主体模型,及其可能存在异常值的观测信息,如果两变量s与j线性关系已经确定的话,那么符号圆点、加号两组均有异常案例,其中圆点组有较多的异常。这对模型的预测效果将产生很大的影响。

2.探索模型残差信息

proc sort data=data_anl.performance;
by scale;
run;
proc sgplot data=data_anl.performance;
title 'reg to fit';
reg y=gcharacteristic x=jaim/group=scale clm cli;
run;

第一组数据的离散性更大一点,预示着不同类型的异常信息,提示在建模时对这些观测需多加小心,其中杠杆点最值得关注。

95%的预测区间和置信区间,给出了不同组模型的拟合效果,两组数据比较相近,故置信区间有些重叠,至于模型残差信息,以第一组为例,红色箭头指向的那个点和蓝色箭头指向的点,均是较强的杠杆点,但杠杆点所起的效应是否会破坏模型的有效性,需要视OLS估计的残差而定,我们知道回归参数标准误来源于残差等信息的计算(正向关系),因此红色箭头点将带来的相对较大的残差(相对第一组回归线而言),如果这种信息超出了一定的规则,OLS估计将无效。

垂直特异性是另一个值得关注的异常信息,像第一组的数据(最下方的几个圆点,包括红色箭头指向的点)可能带来回归截距的变化(当然回归线两边分布点大致相当的话除外),如果数据点同时具有上述两种特征,那么该数据点没有理由不处理。

3.探索残差的相对信息

proc sgpanel data=data_anl.performance;
title "Scatter plot for staff performance";
panelby scale / columns=2;
reg x=jaim y=gcharacteristic / cli clm;
run;
title;

proc sgscatter data=data_anl.performance;matrix gcharacteristic jaim jhonour jcompetency jpromotion jhonour/group=scale;run;

矩阵图或镶有嵌板的图,在观测多变量或不同特征群组间的关系时,很方便。

上面的两幅图提供的信息很类似,例如矩阵散点中,变量G与3个J均有不同数据点偏离的比较远,这预示着在多维空间里,这些点的特殊性,不过这要结合更专业的残差图综合分析,例如某残差的权势图、稳健距离图等等。

小图也有大作为:散点图在统计中的作用相关推荐

  1. 《Excel数据可视化:一样的数据不一样的图表》——2.3 概率统计中的正态分布和偏态分布...

    本节书摘来自华章计算机<Excel数据可视化:一样的数据不一样的图表>一书中的第2章,第2.3节,作者 恒盛杰资讯,更多章节内容可以访问云栖社区"华章计算机"公众号查看 ...

  2. 大数据在统计中的应用初探

    大数据是信息时代的必然产物,是人们在日常工作.学习.生活中,使用以现代网络.特别是以互联网为特征的现代信息技术和其他各种电子计量设备而产生的海量信息.对海量信息的采集.存储.分析.整合.控制而得到的数 ...

  3. 如何使用Leangoo看板统计中的任务分布?

    之前已经为大家介绍了"如何使用Leangoo自动生成燃尽图" 今天介绍,"如何使用Leangoo看板统计中的任务分布" Leangoo看板统计中的"任 ...

  4. 如何使用Leangoo看板统计中的任务周期?

    任务周期可以直观地显示一个任务执行的天数. Leangoo通过任务周期的显示,能够及时了解任务的执行情况,从而反映出团队的响应速度. Leangoo看板统计中的「任务周期」, 统计的是当前看板上每个任 ...

  5. Matlab在概率统计中的应用问题及解决方案集锦

    前言 关于MATLAB系列的精品专栏大家可参见 MATLAB-30天带你从入门到精通 MATLAB深入理解高级教程(附源码) 喜欢的小伙伴可自行订阅,你的支持就是我不断更新的动力哟! Matlab在概 ...

  6. 2018.11:大数据在政府统计中的应用、瓶颈及融合路径(余芳东)

    内容摘要:应用大数据是未来政府统计发展的必然趋势.本文系统梳理当前政府统计应用大数据的基本类型,研究探索大数据统计应用实践和基本方法思路,剖析大数据统计应用面临的困难和瓶颈,提出推进大数据与政府统计工 ...

  7. delhpi7 tcombobox清楚重复项_专利数据统计中需要搞清楚的首要问题(2)

    上一篇专利数据统计中需要搞清楚的首要问题(1)介绍了通过合并申请号避免重复统计,理清了专利篇数和专利件数的问题,那么还有一类统计就是对发明项数的统计,这里就涉及到对同一项发明的重复统计问题.上一篇介绍 ...

  8. 统计信息在数据库中的作用_统计在行业中的作用

    统计信息在数据库中的作用 数据科学与机器学习 (DATA SCIENCE AND MACHINE LEARNING) Statistics are everywhere, and most indus ...

  9. 消解原理推理_什么是推理统计中的Z检验及其工作原理?

    消解原理推理 I Feel: 我觉得: The more you analyze the data the more enlightened, data engineer you will becom ...

最新文章

  1. virtualbox centos5 分辨率_一种高分辨率、高帧率的LCoS显示芯片设计方法
  2. 最短路径Dijkstra(邻接矩阵)
  3. 【重磅】杨强,陈云霁团队提名2020年度国家科学技术奖!!!
  4. python-序列化模块
  5. php图片去噪,python 图片去噪的方法示例
  6. php对称字符串,PHP实现简单的对称加密和解密方法 - str_split
  7. 浪潮NF5270M3 刷uefi_新零售浪潮中,开为科技利用刷脸支付帮门店“运营”人
  8. 【数据结构与算法】之深入解析“完美矩形”的求解思路与算法示例
  9. Spark精华问答 | spark的组件构成有哪些?
  10. Oracle 19c集群重装步骤详解
  11. HyperLogLog设计和实战
  12. Java改环境变量把path修改了,CentOS查看和修改PATH环境变量的方法
  13. NAT地址转换的三种实现方式
  14. 下列哪项不属于以太网交换机的特点_钢筋混凝土结构的特点及配筋要求考点,每天几分钟,轻松学二建...
  15. java编程自学app_Java编程自学软件
  16. Java集成openCV实现图片背景切换
  17. Excel进行灵敏度分析
  18. 在上海、苏州、深圳、长沙从“蜗居”到“安家”,8090后要付出多少?
  19. 连接防火墙/路由器的几种方式
  20. Python破解压缩包密码

热门文章

  1. 铁路防雷及接地工程技术规范TB10180-2016(二)
  2. 关于Python的书籍的阅读心得,推荐一本python的书籍
  3. php 遍历html节点,JavaScript_js获取html页面节点方法(递归方式),很久没有操作过递归调用了。 - phpStudy...
  4. 2022年全国CMMI认证补贴政策|昌旭咨询
  5. 智能风控系统设计与实践
  6. Eclipse启动和手动启动tomcat访问localhost:8080显示404问题总结
  7. isar舰船 matlab,一种isar图像舰船目标特征提取方法
  8. 【方向盘】升级到IDEA 2022.1版本后,我把Maven Helper卸载了
  9. UNIX OS 简史(转)
  10. 计算机/软件专业属于工学还是理学?为什么?