面试经常会被问到为什么要做特征共线性分析,这里做一个全面的解释。

多重共线性是指自变量之间存在一定程度的线性相关,会给变量对模型的贡献性带来影响。即若有两个变量存在共线性,在相互作用计算后,其一的变量的影响会相对减弱,而另一个变量的作用却会相对增强。

产生原因:

(1)没有足够多的样本数据

(2)选取的样本之间本身就客观存在共线性关系

(3)其他因素导致:数据采集所采用的方法,模型的设定,一个过度决定的模型

3.判别多重共线性:

(1)系数估计值符号不对

(2)删除某一不太重要的特征,结果发生显著变化

(3)方差膨胀因子(vif)检验  VIF =1/(1-R^2)

4.影响:

(1)难以区分每个解释变量对结果的影响

(2)回归模型缺乏稳定性

稳定性指从同一个总体中抽取不同的样本估计模型,得到的估计值不会完全相同,但也不会有很大的差别

当模型存在多重共线性时,样本数据有了微小的数据变换,都可能导致系数估计值发生显著变化,甚至出现符号错误

5.处理原则:

(1)多重共线性普遍存在,程度不一,轻微的多重共线性问题可不采取措施

(2)严重的多重共线性问题,一般可根据经验或通过分析回归结果发现。如影响系数符号,重要的解释变量t值很低

(3)若模型仅用于预测,只要拟合程度好,可不处理多重共线性

6.处理方法:

(1)增加样本数据量

(2)采用逐步回归结合主观分析的方法,从少到多的做特征选择

(3)从共线问题的自变量中剔除一些不重要的变量

为什么要做特征共线性分析相关推荐

  1. 竞赛中如何做特征工程

    对话1:特征工程流程 竞赛小白 在参加结构化比赛时,做特征工程时候,是先筛选特征,还是先做特征编码呢? 鱼佬 可以先利用一些统计值筛选特征,比如缺失比例大于99%,或者信息量较少的特征. 然后再去做特 ...

  2. 自动驾驶中,激光雷达点云如何做特征表达

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 激光雷达在自动驾驶系统中起着关键作用.利用它,可以准确地对车辆所处环境做3D建模,如高精度地图:也可以 ...

  3. 不会做特征工程的 AI 研究员不是好数据科学家!上篇 - 连续数据的处理方法 本文作者:s5248 编辑:杨晓凡 2018-01-19 11:32 导语:即便现代机器学习模型已经很先进了,也别

    不会做特征工程的 AI 研究员不是好数据科学家!上篇 - 连续数据的处理方法 雷锋网(公众号:雷锋网) AI 科技评论按:眨眼间我们就从人工特征.专家系统来到了自动特征.深度学习的人工智能新时代,众多 ...

  4. 如何做用户画像分析?

    我们经常在淘宝网购物,作为淘宝方,他们想知道用户是什么样的,年龄.性别.城市.收入.购物品牌偏好.购物类型.平时的活跃程度等,这样的一个用户描述就是用户画像分析. 在实际工作中,用户画像分析是一个重要 ...

  5. R语言主成分回归(PCR)、 多元线性回归特征降维分析光谱数据和汽车油耗、性能数据...

    原文链接:http://tecdat.cn/?p=24152 什么是PCR?(PCR = PCA + MLR)(点击文末"阅读原文"获取完整代码数据). • PCR是处理许多 x ...

  6. 听说算法工程师80%的时间都在做特征工程?

    前言 想象一下,当今社会备受瞩目的人工智能和数据挖掘算法工程师每天大部分时间都在做什么呢?是花大量时间手推公式,还是思考各种trick对算法调参,还是一遍遍清洗数据和加工特征?实际上,大部分的数据挖掘 ...

  7. Mplus教程:如何做潜在类别分析LCA

    之前潜在类别分析已经给大家写的很详细了,不过都是基于R软件的,我发现一个很奇怪的地方哦,找我做潜类别的基本都不用R,找我解决R语言问题的基本都不知道潜类别是干啥的,看样子做潜变量分析还是mplus受众 ...

  8. 电商分析:网站运营不得不做的用户分析

    当电子商务网站成功地把一个访客转化成一个客户之后,如何提高这个客户对于网站的忠诚度,继而增加客户对于网站的整体贡献值就变得非常重要了, 因为带来一个新客户的成本是维护好一个老客户的3 -5 倍 .只有 ...

  9. 用机器学习神器sklearn做特征工程!

    Datawhale干货 作者:jasonfreak,编辑:数据STUDIO 使用sklearn做特征工程 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是 ...

  10. 在线作图|在线做Unifrac PCoA分析

    Unifrac PCoA分析 UniFrac分析利用各样品序列间的进化信息来比较环境样品在特定的进化谱系中是否有显著的微生物群落差异.UniFrac 可用于beta 多样性的评估分析,即对样品两两之间 ...

最新文章

  1. vlc-android配置实录
  2. SVN 文件的解锁方法
  3. iOS 关于权限设置的问题
  4. MySQL语言解析----1
  5. Redis你不得不探索的11个问题
  6. java单例模式之线程安全问题
  7. Python+pandas一维数组常用操作
  8. baidumap vue 判断范围_vue百度地图 + 定位的详解
  9. 求解数独难题, Sudoku问题(回溯)
  10. 你专属的程序员春节“大礼包”
  11. ssh 远程连接、上传下载命令
  12. Windows中解压Linux中产生的tar.gz分卷压缩包
  13. 悼念毛星云(浅墨)老师
  14. 【C++】error: passing ‘const xxx’ as ‘this’ argument discards qualifiers [-fpermissive]
  15. 电商直播发展正夯,云计算技术硬核支撑
  16. kubesphere+kubernetes搭建生产环境高可用集群(一)
  17. 格灵深瞳将登陆科创板募资18亿,AI天才未来能否走出巨亏困局?
  18. .net framework 3.5 dotNetFx35setup 能不需要网络支持吗?
  19. Docker_Cgroup
  20. JOL - Java Object Layout

热门文章

  1. 简单多人聊天室——java网络编程
  2. 反距离加权插值IDW计算详细步骤
  3. 用简单易懂的话语来快速入门windows缓冲区溢出
  4. 鸿蒙开发必备书籍整理【收藏系列】
  5. 如何制作微信答题小程序(微信答题考试小程序开发制作功能介绍)
  6. 记一位空降老大(BAT高级总监)的几把火(欢迎大家留言讨论赐教)
  7. 信息系统项目管理师下午论文的一些心得
  8. 机器视觉硬件(焦距和景深的计算)
  9. 服务器磁盘,内存测试,坏道检查【实战】
  10. Bytom BIP-32协议和BIP-44协议