[回归分析][11]--共线性数据的分析

考虑 x1,x2,x3 ... xn之间有相关性时。
即我们搜集数据时,可能搜集的数据之间有很强的相关性,会影响我们的分析。

对于两两之间的关系,可以用相关系数矩阵
如:以下是数据

data = {{"st", "at", "pt", "et", "at-1", "pt-1"}, {20.11, 1.99, 1., 0.3, 2.02, 0.}, {15.1, 1.94, 0., 0.3, 1.99, 1.}, {18.68, 2.2, 0.8, 0.35, 1.94, 0.}, {16.05, 2., 0., 0.35, 2.2, 0.8}, {21.3, 1.69, 1.3, 0.3, 2., 0.}, {17.85, 1.74, 0.3, 0.32, 1.69, 1.3}, {18.88, 2.07, 1., 0.31, 1.74, 0.3}, {21.27, 1.02, 1., 0.41, 2.07, 1.}, {20.48, 2.02, 0.9, 0.45, 1.02, 1.}, {20.54, 1.06, 1., 0.45, 2.02, 0.9}, {26.18, 1.46, 1.5, 0.5, 1.06, 1.}, {21.72, 1.88, 0., 0.6, 1.46, 1.5}, {28.7,2.27, 0.8, 0.65, 1.88, 0.}, {25.84, 1.11, 1., 0.65, 2.27, 0.8}, {29.32, 1.77, 1.2, 0.65, 1.11, 1.}, {24.19, 0.96, 1., 0.65, 1.77, 1.2}, {26.59, 1.99, 1., 0.62, 0.96, 1.}, {22.24, 1.97, 0., 0.6, 1.99, 1.}, {24.8, 2.27, 0.7, 0.6, 1.97, 0.}, {21.19, 1.98, 0.1,0.61, 2.27, 0.7}, {26.03, 2.1, 1., 0.6, 1.98, 0.1}, {27.39, 1.07, 1., 0.58, 2.1, 1.}};


数据写好是这样的。

mat = Correlation[data] // MatrixForm


得到相关系数矩阵-- 数据的绝对值越接近1说明相关性越好

可以把每一张图画出来看一下

Grid[Table[ListPlot[data[[All, {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}]][[All, {i, j}]],PlotStyle -> Directive[PointSize[Medium]],FrameTicks -> None, Frame -> True, Axes -> None,PlotLabel -> Row[{"\[Rho] : ", Correlation[data[[All, {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}]]][[i, j]]}]], {i, 1, 11}, {j, 1, 11}],Spacings -> {0.5, -1}]

下面考虑多重线性关系,即一个变量可能与多个变量有关系

1.方差膨胀因子--VIF,当VIF>10时,说明有很强的相关性
简单说一下检验的方法:去掉一个变量后R^2的变化

lm = LinearModelFit[data[[All, {2, 3, 4, 5, 6, 1}]], {x1, x2, x3, x4, x5}, {x1, x2, x3,x4, x5}];
Grid[{bl[[{1, 2, 3, 4, 5, 6}]], lm["VarianceInflationFactors"]}, Frame -> All]

可以看到 at , pt ,at-1,pt-1的VIF很大,说明有相关性

2.相关系数的特征跟---越接近0,相关性越大
可以用定义来计算:

也可以用定义好的函数

lm["EigenstructureTable"]


可以比较一下,是一样的。

对变量做变换,变成正交的变量。用特征向量做变换--变为c1,c2,...,cn

mat = Correlation[data[[All, {2, 3, 4, 5, 6}]]];
vet = Eigenvectors[mat];
Column["c" <> ToString[#] <> " == " <> ToString[TraditionalForm[Apply[Plus, vet[[#]]*{x1, x2, x3, x4, x5}]]] & /@Range[5], Spacings -> 1.5, Frame -> All]


这个特征值可以理解 ci 的方差,当 特征值很小时,即方差很小,即可以理解位 ci==常数

如这时,c5==0,则根据最后一个等式:

常数 = -0.51x1 - 0.48x2 - 0.42x4 - 0.559x5
这个常数可以带入数据去计算出来

以上,所有
2016/12/3

[回归分析][11]--共线性数据的分析相关推荐

  1. 大数据系统开发综合实践(淘宝双11大数据批处理分析系统、NBA 、淘宝购物大数据实时展示、Spark GraphX)

    cqupt || xmu--大数据系统开发综合实践 代码放在了GitHub上 链接 task01 大数据批处理系统 淘宝双11大数据批处理分析系统 task02 大数据查询分析计算系统 NBA 统计大 ...

  2. 单细胞转录组数据整合分析专题研讨会(2019.11)

    2019年10月9日,单细胞转录组再等Nature.题为Decoding human fetal liver haematopoiesis的研究,对受孕后4周至17周的人胚胎肝脏.卵黄囊.肾脏和皮肤组 ...

  3. 开源:数据可视化分析平台 DataGear 1.11.1 发布

    点击上方蓝色"程序猿DD",选择"设为星标" 回复"资源"获取独家整理的学习资料! 来源 | https://www.oschina.net ...

  4. 乐鑫esp8266学习rtos3.0笔记第11篇:详细分析Esp8266上电信息打印的数据,如何做到串口通讯上电不乱码打印。

    本系列博客学习由非官方人员 半颗心脏 潜心所力所写,不做开发板.仅仅做个人技术交流分享,不做任何商业用途.如有不对之处,请留言,本人及时更改. 序号 SDK版本 内容 链接 1 nonos2.0 搭建 ...

  5. 【报告分享】小红书平台2021 11.11期间行业投放分析报告-千瓜数据(附下载)

    摘要:随着平台多元化发展,用户体量增加,小红书逐渐拥抱了更多的年轻用户群体,也给更多的品牌带来了增长机会.据小红书方透露,2021年小红书平台的单日笔记曝光已经超100亿次,且男性用户占比已经达到了3 ...

  6. 从11对战平台获取玩家数据进行分析

    首发:个人博客,更新&纠错&回复 在11对战平台好友列表中右键可以查看他的战绩,该页面的地址实际是这样: http://score.5211game.com/RecordCenter/ ...

  7. 数据可视化分析票房数据报告_票房收入分析和可视化

    数据可视化分析票房数据报告 Welcome back to my 100 Days of Data Science Challenge Journey. On day 4 and 5, I work ...

  8. 大数据可视分析在海洋领域的应用

    点击上方蓝字关注我们 大数据可视分析在海洋领域的应用 解翠1, 李明悝2, 陈萍1, 李孝天1, 宋键1, 董军宇1, 赵佳萌1 1 中国海洋大学信息科学与工程学院,山东 青岛 266100 2 中国 ...

  9. 数据预处理_数据相关性分析

    相关性分析 1.相关性分析是指对多个具备相关关系的变量进行分析,从而衡量变量间的相关程度或密切程度 2.相关性可以应用到所有数据的分析过程中,任何事物之间都是存在一定的联系 3.为了更准确描述变量之间 ...

最新文章

  1. putty 显示 ubuntu的文件乱码
  2. Python并发与并行的新手指南
  3. jsp mysql做登入界面_用jsp实现网站登录界面的制作,并连接数据库
  4. 原来“抖商大会”和抖音没有关系!抖音起诉“抖商大会”主办方 索赔300万
  5. Rust 修复隐秘的ReDoS 漏洞
  6. TextCNN可以和对比学习融合吗-SimCSE论文读后感
  7. 大神带你实现 NLP 从入门到获奖,还有免费算力可以薅
  8. aux 参数 linux,Linux下ps aux解释
  9. Spring Boot 中使用WebJars
  10. NOIP2010 引水入城
  11. 名帖14 吴让之 篆书《吴均帖》
  12. ArcGIS空间插值方法反距离权重法(IDW)的工作原理
  13. 智能红外遥控器(五):手机蓝牙控制格力空调
  14. Github 设置提交邮件地址
  15. 1065:奇数求和(C C++)
  16. 牛市源码定制,抖音矩阵系统源头开发,here
  17. 草料二维码生成器怎么连接打通其他应用?
  18. 百货商场数字化|百联靠全渠道实现疫情期间业务增长
  19. 点击添加MSN机器人小新,为您收听下载MSDN中文网络广播课程加油助力
  20. 【竹梦令】生死梦. 连枝冢

热门文章

  1. 高空间分辨率的遥感数据源及其所在遥感平台、传感器特点
  2. 让你终身不发火的5个字
  3. Unity3D--协程使用详解
  4. 入职两年的人写给刚入职的人
  5. maven下载jar包慢-解决详细
  6. HDU 4553 约会安排 (区间合并)【线段树】
  7. C ++ 编程思想(卷二) 笔记
  8. QQ浏览器HD的动态化方案QBDF的总体架构设计(2)【简书被冻结-搬运】
  9. 安卓手机卓android手机客户端,卓大师刷机专家|卓大师刷机pc Android 客户端 V2.3.5 安卓版...
  10. 字节跳动或将强制实行1075工作制,加班需申请