最近学习了3种常见的统计学方法:主成分分析法(PCA)、熵值法、层次分析法(AHP,又称专家打分法)。都可以用来计算指标(或属性)的权重,只有主成分分析法可以降维。PCA/熵值法都需要有对应的样本数据,比如10个样本,每个样本5个属性,共10*5个数据,才能应用;而层次分析法(AHP)不需要有数据,只需要专家对各个指标之间的相对重要关系进行打分,就能计算各指标权重,各指标权重就是构造的比较矩阵的特征向量(归一化后的),如果是多层,那就逐层计算,最后各层权重相乘得到最终权重。
主成分分析法:本质上就是将较多个的具有一定相关性的指标或属性简化为几个不相关的主成分,这些主成分由各指标或属性线性组合而成,组合的权重就是特征向量。能够实现浓缩凝练数据,对数据进行降维的作用。主成分分析可以同时计算主成分权重(常见用法)和各指标权重。选择特征根大的主成分,以特征根代表方差贡献大小,并计算方差贡献率。
spss和MATLAB中都可以实现主成分分析。
主成分分析的步骤如下:
(1)数据标准化处理(S),注意不是归一化,标准化的方法是xi_new=(xi-mean(x))/标准差,注意是每个指标或者属性单独标准化,因为各个指标或属性的数值意义不一样,混在一起标准化显然是不合理的。
(2)求样本的协方差矩阵(cov),协方差矩阵S=(1/n-1)X*XT,就是标准化后的样本矩阵乘以其自身的转置。MATLAB上有命令可以直接求
(3)计算协方差矩阵的特征值和特征向量。可能有多个特征值,每个特征值对应一个特征向量,特征值越大,主成分权重越高,实际上,特征值归一化后就是对应主成分的方差贡献率,特征向量就是主成分的线性系数。一般累计方差贡献率大于85%即可,实现降维目的
(4)解释各主成分的新的含义,依据主成分对应的各原始指标的系数的大小和正负号,进行解释,受哪个影响大,是正相关还是负相关

AHP层次分析法:AHP层次分析法是一种定性和定量的计算权重的研究方法,采用两两比较的方法,建立矩阵,利用了数字大小的相对性,数字越大越重要权重会越高的原理,最终算得到每个因素的重要性。
适用场景:层次分析法适用于有多个层次的综合评价中。
层次分析法说白了就是主观评价法,主要三个步骤一是构造比较矩阵,二是一致性检验,三是特征向量归一化来作为各指标的向上权重值。可以是单层,也可以是多层,多层的话就是每层权重累乘就行了,主要用途就是求各指标的权重,也可以用于决策问题,就是在方案层选择哪种方案比较好,排序问题

熵值法:熵值法属于一种客观赋值法,其利用数据携带的信息量大小计算权重,得到较为客观的指标权重。熵值是不确定性的一种度量,熵越小,数据携带的信息量越大,权重越大;相反熵越大,信息量越小,权重越小。
适用场景:熵值法广泛应用于各个领域,对于普通问卷数据(截面数据)或面板数据均可计算。在实际研究中,通常情况下是与其他权重计算方法配合使用,如先进行因子或主成分分析得到因子或主成分的权重,即得到高维度的权重,然后再使用熵值法进行计算,想得到具体各项的权重。

熵值法说白了目的也是为了确定各指标的权重,但是是客观评价,需要有数据才能评价,提取数据的熵特征,可以简单理解为无序程度复杂程度。跟主成分分析原理不一样,属于两种不同的方法。

值得一提的是:有些时候为了获得更合理靠谱的权重,通常会采用两种方法结合使用的情况,常见的权重组合方式有:AHP-熵值法的综合权重计算公式A*B/(A*B的求和),AHP-PCA综合权重计算公式W=tWahp+(1-t)Wpc, PCA-熵值法。

总之呢,这三种是常见的表格数据的一些预处理方法,不同类型的权重确定方法,其中PCA常用于降维,这三种方法都很好实现,要灵活使用。

3种常见的统计学方法相关推荐

  1. 计算机系统故障如何处理,安装操作系统出错怎么办?几种常见的异常处理方法介绍(图文)...

    安装操作系统出错怎么办?很多人在碰到这样的问题都不知道该如何操作,其实安装系统出错比较常见,有共性,也有个性,而且还要具体问题具体分析.下面小编就给大家列举几种常见的异常处理方法,仅供大家参考,希望能 ...

  2. 【机器学习】交叉验证详细解释+10种常见的验证方法具体代码实现+可视化图

    [机器学习]交叉验证详细解释+10种常见的验证方法具体代码实现+可视化图 一.使用背景 由于在训练集上,通过调整参数设置使估计器的性能达到了最佳状态:但在测试集上可能会出现过拟合的情况. 此时,测试集 ...

  3. 几种常见的排序方法整理

    几种常见的排序方法整理 一.直接插入排序 插入排序是一种简单直观的排序算法.通过构建有序序列,对于未排序数据,在已排序序列中从后向前扫描,找到相应位置并插入.插入排序在从后向前扫描的过程中,需要反复把 ...

  4. 11种常见的多变量分析方法

    在社会科学研究中,主要的多变量分析方法包括多变量方差分析(Multivariate analysis of variance,MANOVA).主成分分析(Principal component ana ...

  5. python中的排序方法都有哪些_几种常见的排序方法总结(Python)

    几种常见的排序算法总结(Python) 排序算法:是一种能将一串数据依照特定顺序进行排序的一种算法. 稳定性:稳定排序算法会让原本有相等键值的记录维持相对次序.也就是如果一个排序算法是稳定的,当有两个 ...

  6. 七种常见的数据分析方法拆解

    数据分析一直是互联网人辨别方向的不二法门,我们通过对数据的观测来判断事物的发展趋势,也常常利用数据的思维来辩证的为决策做参考. 下面就给大家详细拆解七种常见的数据分析法,让我们的数据分析少走弯路. 0 ...

  7. java中的排序方法_Java中8种常见的排序方法

    本博主要介绍Java中几种常见的排序算法: /* 排序方法的演示 1)插入排序(直接插入排序.希尔排序) 2)交换排序(冒泡排序.快速排序) 3)选择排序(直接选择排序.堆排序) 4)归并排序 5)分 ...

  8. 几种常见的数据分析方法拆解

    数据分析一直是我们互联网人辨别方向的不二法门,我们通过对数据的观测来判断事物的发展趋势,也常常利用数据的思维来辩证的为决策做参考. 掌握技能和工具只是第一步,做好数据分析还必须要有数据分析思维.数据思 ...

  9. python五种常见的排序方法是_python中序列的排序,sorted方法、reversed方法的使用...

    简介 INTRODUCTION 包括字典排序.列表排序.升序.降序.逆序 一.基础概念 我们知道python中的内建序列包括字典.列表.元组.字符串等,序列是python中最基本的数据结构. 列表.元 ...

  10. 11种常见SQLMAP使用方法详解

    一.SQLMAP用于Access数据库注入 (1) 猜解是否能注入 win: python sqlmap.py -u "http://www.xxx.com/en/CompHonorBig. ...

最新文章

  1. 灵魂出窍的神经生物学基础!
  2. IPM analysis request DB table
  3. 本土链雷达网_走向本土设计
  4. 网站用户修改密码源码(邮箱版)
  5. sqlparameter多个赋值一行完成_HashMap源码从面试题说起:请一行一行代码描述hashmap put方法...
  6. C语言 底层IO lseek
  7. 异常:Invalid character found in the request target. The valid characters are defined in RFC 3986
  8. Linux find命令 查找文件、目录
  9. kettle使用数据库来生成序列_kettle 生成 ktr
  10. Gerrit 安装lfs插件
  11. 森林防火系统集成解决方案
  12. virtio-blk简易驱动
  13. WiFi底层通信接口@Netlink
  14. python制作猫和老鼠游戏我觉得可以学一手@
  15. smartGit系列之长期使用批处理脚本
  16. 正则表达式之贪婪匹配和懒惰匹配
  17. 数据中心网络设备管理(二)
  18. wince系统改安卓系统_WinCE迁移安卓原来也可以很简单!
  19. Linux基础之计划任务
  20. word论文排版插件_用这个Word插件,瞬间完成一键排版

热门文章

  1. python用爬虫实现抢票_PythonGUI+爬虫-从零打造12306抢票软件价值1680元
  2. 面试题:深拷贝和浅拷贝(超级详细,有内存图)
  3. 天然气阶梯是按年还是按月_燃气阶梯是一年一清吗 燃气阶梯的定义
  4. cheap fifa coins Do restrict Alexander fantastic?
  5. 【读论文0623】The Devil Is in Classification: A Simple Framework for Long-Tail Instance Segmentation
  6. Words Reciting 2016.5.4
  7. 组装http报文调用小黄鸡网页端消息接口
  8. 电影院订票选座小程序 电影小程序毕业设计 毕业论文 开题报告和效果图
  9. 谷歌统计Google Analytics使用入门
  10. .NET报表设计器ActiveReports入门:操作界面详解