第十章 主成分分析和因子分析

当变量很多,且有些变量是相关的时候,为了找出少数能够代表它们的变量,就要用到主成分分析和因子分析,所以,主成分分析和因子分析都是用来降维的。

  • 主成分分析
    假定原先数据是二维观测值,在一个二维坐标系中,这些数据点形成一个有椭圆形轮廓的点阵,这个椭圆有两条轴,一条长轴和一条短轴,互相垂直,长轴承担了数据比较多的变化,代表了数据包含的大部分信息,一半来说将这个长轴代表的变量作为降维后的变量就可以完成降维的任务了。长轴和短轴这两条轴代表的变量就叫主成分,这两条轴叫主轴,主轴的长度叫特征值。
    如果两条轴分别和坐标系平行,那这两条轴就是两个主成分,但是很多情况下,这两条轴不和坐标轴平行,就需要做一些变换,创建两个新的变量分别和两条坐标轴平行,新的变量是原先的变量的线性组合,这时,这两个新的变量就是主成分。
    主成分分析是,先找出所有主成分,主成分数量和原数据的变量个数是一样的,然后取最长的几个主成分,至于取几个,一般取所选主轴总长度占所有主轴长度之和的大约85%。
    主成分由原变量线性组合而成,每一个原变量前的系数称为主成分载荷,表示的是主成分和原先变量的线性相关系数。
  • 因子分析
    因子分析更精密,结果更有说服性,可以说主成分分析是因子分析的特例。
    因子分析事先确定要找几个成分,也称因子,也就是说,主成分分析有几个变量就有几个主成分,因子分析是先确定有几个成分,数量不一定要等于原变量个数。

【读书笔记】统计学:从数据到结论 第十章相关推荐

  1. 5000字 大数据时代读书笔记_大数据时代读书笔记

    大数据时代读书笔记 [篇一:大数据时代读书笔记] 大数据时代 -- 读书笔记 一.引论 1. 大数据时代的三个转变: 1. 可以分析更多的数据,处理和某个现象相关的所有数据,而不是 随机采样 2. 不 ...

  2. 大数据之路读书笔记-09阿里巴巴数据整合及管理体系

    大数据之路读书笔记-09阿里巴巴数据整合及管理体系 面对爆炸式增长的数据,如何建设高效的数据模型和体系,对这些数据进行有序和有结构地分类组织和存储,避免重复建设和数据不一致性,保证数据的规范性, 直是 ...

  3. 关于数据治理的读书笔记 - 什么是数据治理?

    <关于数据治理的读书笔记 - 数据治理.数据管理和数据管控的理解>我们了解了有关数据治理.数据管理和数据管控,这几个名词之间的区别和联系,回到数据治理的话题上,数据治理究竟是什么? 站在不 ...

  4. 小曾曾读书笔记 ||《大数据实践之路》

    <大数据实践之路>这本书,是由多位数据产品和分析师,根据自己的工作经验和个人总结,汇总而来. 类似这种合著作品的例子,现在越来越普遍,优点是可以发挥所长.精心雕刻,缺点也较为明显,就是章节 ...

  5. 读书笔记丨《数据产品经理修炼手册:从零基础到大数据产品实践》丨DAY1

    学习内容及时间2022.06.01: 第一章[初识数据产品经理](p1-p24) 1.1为什么要有数据产品经理 1.1.1大数据行业现状: {什么是大数据?}: 1.目前没有一个统一准确的定义,因为不 ...

  6. 读书笔记之大数据计算模式

    1.大数据计算模式:根据大数据的不同特征和计算特征,从多样性的大数据计算问题和需求中提炼并建立的各种高层抽象或模型,传统的并行计算方法主要从体系结构和编程语言层面定义了一些较为底层的并行计算抽象和模型 ...

  7. OCA读书笔记(9) - 管理数据同步

    9.Managing Data Concurrency 描述锁机制以及oracle如何管理数据一致性 监控和解决锁冲突 管理数据的并发--管理锁 数据的不一致: 脏读 更改丢失 幻影读 脏读: 数据是 ...

  8. linux高性能网络编程读书笔记之socket数据读写

    数据读写分为TCP数据读写,UDP数据读写,通用数据读写 1.TCP数据读写 定义:socket是连接用户空间和内核空间,TCP和UDP是内核第一层. 解释:对于文件的read和write同样适用于s ...

  9. 5000字 大数据时代读书笔记_大数据时代 读书笔记

    大数据时代 维克托·迈尔·舍恩伯格 首先作者抛出了大数据时代处理数据理念上的三大转变:  要全体不要抽样. 首先,要分析与某事物相关的所有数据,而不是依 靠分析少量的数据样本.全数据模式,样本 = ...

  10. 读书笔记丨《数据产品经理修炼手册:从零基础到大数据产品实践》丨DAY4

    日期:2022年7月24日 内容:第四章数据仓库理论与应用(p77-p104) 4.1 了解大数据基础Hadoop 一.Hadoop及三驾马车 01.什么是hadoop? Hadoop是一个分布式系统 ...

最新文章

  1. 可以多次使用同一个hbitmap吗_一个部位可以多次吸脂吗?
  2. new,delete和malloc,free以及allocatorT
  3. 基于Apache Spark的机器学习及神经网络算法和应用
  4. Hyperopt中文文档导读
  5. Redis模式匹配删除key
  6. 数据库中char与varchar类型的区别 1
  7. MATLAB的GUI界面不显示XY坐标轴
  8. 阿里云云效发布研发协同工具,以新的产研协同工作方式助力实现BizDevOps
  9. ASP.NET-第三天-加强课程
  10. Rust: codewars的Sum by Factors
  11. python是由哪个人创造的文字_楔形文字是由什么人创造的
  12. 【中国象棋人机对战】引入了AI算法,学习低代码和高代码如何混编并互相调用
  13. 关于 HTTP 长连接
  14. 2014年3月份全国计算机等级考试二级c语言选择题大全,2014年3月全国计算机二级C选择题考试真题...
  15. 腾讯邱跃鹏:解密腾讯亿级产品背后网络架构故事
  16. Bootstrap4速成笔记五 Listgroup,Modal,Nav,NavBar
  17. 【论文翻译】CN-DBpedia: A Never-Ending Chinese Knowledge Extraction System
  18. 如何计算CPU的算力
  19. js中的includes用法
  20. dynamic 365 前端操作

热门文章

  1. Hi3516A开发--电阻分压阻值计算
  2. LDO分压电阻计算小工具
  3. (半)自动化爬虫系统该包含的功能点及相关介绍
  4. 创业文档: 软件定制开发合同
  5. WARNING: Too many active WebGL contexts. Oldest context will be lost
  6. 厦门大学林子雨老师大数据实验环境搭建索引
  7. SQL建表语句转换为Excel表格
  8. 建站系统创业项目综合测评:ePower、云优CMS、微加互联、微企点
  9. 制作一个简单HTML静态网页(HTML+CSS)
  10. 安卓kali安装mysql_超详细安卓手机安装kali教程(root篇)