无监督学习:Linear Dimension Reduction(线性降维)
一 Unsupervised Learning
把Unsupervised Learning分为两大类:
- 化繁为简:有很多种input,进行抽象化处理,只有input没有output
- 无中生有:随机给一个input,自动画一张图,只有output没有input
二 Clustering
有一大堆image ,把他们分为几大类,给他们贴上标签,将不同的image用相同的 cluster表示。 也面临一个问题,要有多少种cluster呢? 有两种clustering的方法:
2.1 K-means(K均值)
2.2 Hierarchical Agglomerative Clustering (HAC阶层式汇聚分群法)
注:如果说K均值算法的问题是不好却确定分为几类,那么HAC的问题在于不知将分类门槛划在哪一层。
三 Distributed Representation(分布式表征)
光做clustering是很卡的,有的个体并不只属于一个大类,所以需要一个vector来表示在各个类中的概率。这样,从一个(高维)图片到一个各个属性概率(低维)就是一个Dimension Reduction。
四 Dimension Reduction
为什么说降维是很有用的呢? 有时候在3D很复杂的图像到2D就被简化了。
在MNIST训练集中,很多28*28维的向量转成一个image看起来根本不像数字,其中是digit的vector很少,所以或许我们可以用少于28*28维的向量来描述它。 比如下图一堆3,每一个都是28*28维的向量,但是,我们发现,它们仅仅是角度的不同,所以我们可以加上角度值进行降维,来简化表示。
那我们应该怎样做Dimension Reduction呢? 就是要找一个function。有两个方法:
- Feature selection特征选择:比如在左图二维坐标系中,我们发现X1轴对样本点影响不大,那么就可以把它拿掉。
- PCA 主成分分析: 输出 z=Wx输入,找到这个向量W。
在现实中我们很难确定某个因素是否真的不起作用,所以下边重点介绍一个PCA
4.1 Principle Component Analysis (PCA) 主成分分析
在一维的例子里,我们要找 z1 方差最大的情况,当维度升高到2维,找 z2 方差最大,为了避免与 z1 重复,所以规定 w1 与 w2 垂直。依次方法可进行高维计算。将所有w转置一下,组成一个高维向量,就是我们要找的W。
补充一些数学知识(为了求解w):
4.2 PCA - decorrelation
4.3 PCA – Another Point of View
每个手写识别,都是由基础组件构成的,把基础组件加起来,得到一个数字。 对7来说,C1\C2\C3\C4\C5分别为1\0\1\0\1
那我们如何找到 u1-uK这K个Vector呢? 我们要找K个vector使重构误差越小越好。
转化为Matrix。
怎么解这个问题呢?SVD方法: matrix X 可以用SVD拆成 matrix U * matrix ∑ * matrix V。
这样w已经通过SVD求出来了,Ck怎么求呢?
4.4 Weakness of PCA
参考:
http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2016/Lecture/dim%20reduction%20%28v5%29.pdf
https://blog.csdn.net/soulmeetliang/article/details/73309360
转载于:https://www.cnblogs.com/Terrypython/p/9456991.html
无监督学习:Linear Dimension Reduction(线性降维)相关推荐
- 台大李宏毅Machine Learning 2017Fall学习笔记 (14)Unsupervised Learning:Linear Dimension Reduction
台大李宏毅Machine Learning 2017Fall学习笔记 (14)Unsupervised Learning:Linear Dimension Reduction 本博客整理自: http ...
- 8.2-无监督学习-线性降维
我把dimension reduction分为两种,一种做的事情叫做"化繁为简",它可以分为两种:一种是cluster,一种是dimension reduction.所谓的&quo ...
- 无监督学习——K均值聚类的Python实现
目录 概要 一.K均值算法 二.K值的选取:手肘法 三.用聚类实现鸢尾花数据分类 四.应用案例 1. 读取数据 2. 绘制手肘图 3. 找到最佳K值 4. 分类结果可视化 机器学习类型和算法的分类 无 ...
- 李宏毅(2020)作业9:无监督学习降维、聚类、自编码
文章目录 数据集 作业 任务1 任务2 任务3 数据 下载数据集 准备训练数据 一些工具函数 模型 训练 降维和聚类 问题1(作图) 问题2 问题3 数据集 valX.npy valY.npy tra ...
- 无监督学习(2) 数据降维简述与Python实现
为什么要数据降维 大数据时代面临的最大问题是"维度灾难",度量上的不平衡和高维空间的学习复杂度都让机器学习算法在高维数据上很多时候行不通.而且,如果数据超过三维,它们也很难被可视化 ...
- 无监督学习:无监督降维
1.前言 如果输入样本x的维数增加的话,不论是什么机器学习算法,其学习时间都会增加,学习过程也会变得更加困难.例如,假设在一维空间的{0,1}区间里有5个训练样本.以相同的密度在d次维空间里配置相同种 ...
- AI:人工智能领域算法思维导图集合之有监督学习/无监督学习/强化学习类型的具体算法简介(预测函数/优化目标/求解算法)、分类/回归/聚类/降维算法模型选择思路、11类机器学习算法详细分类之详细攻略
AI:人工智能领域算法思维导图集合之有监督学习/无监督学习/强化学习类型的具体算法简介(预测函数/优化目标/求解算法).分类/回归/聚类/降维算法模型选择思路.11类机器学习算法详细分类(决策树/贝叶 ...
- 数据降维(data dimension reduction)
在机器学习和统计学领域,降维是指在某些限定条件下,降低随机变量个数,得到一组"不相关"主变量的过程.对数据进行降维一方面可以节省计算机的储存空间,另一方面可以剔除数据中的噪声并提高 ...
- 机器学习学习笔记之——无监督学习之降维、特征提取与流形学习
降维.特征提取与流形学习 前面讨论过,利用无监督学习进行数据变换可能有很多种目的.最常见的目的就是可视化.压缩数据,以及寻找信息量更大的数据表示以用于进一步的处理. 为了实现这些目的,最简单也最常用的 ...
最新文章
- Django 框架 数据库操作
- java飞机大战流程图_JAVA课程设计-飞机大战
- java选择排序解释_选择排序
- 补PSP进度(10.28-11.3)
- Microsoft Excel设置单元格下拉框的方法
- OpenGL编程指南随书代码在VisualStudio2019的运行方法
- 【C++】单例模式代码实现
- 动态指针时钟:利用pyqt5制作指针钟表显示实时时间
- 面经手册 · 第12篇《面试官,ThreadLocal 你要这么问,我就挂了!》
- product相关函数(excel)
- 使用树莓派制作一套“NAS+私有云盘+下载机”
- 为什么要升级BIOS呢?(1)
- 监听settings
- 《Java 技术体系》之一:Java 技术体系概览
- 网络资源、信息搜索技巧
- 在基金重仓股中随机选股策略
- Web Storage本地存儲
- 帆软、永洪 BI、瓴羊 Quick BI 等工具,都有哪些特点呢?
- m1 pro 微信备份聊天记录 修改macos 电脑名称
- 【基于Web的网上零食销售系统——开题报告 分享(仅供参考呀)】
热门文章
- POJ2955Brackets——dp
- servlet的doPost 和doGet和web文件结构
- [翻译] JNWSpringAnimation
- In static memberfunction
- 修炼!!!——超越项目经理
- L3-020 至多删三个字符 (30 分)-PAT 团体程序设计天梯赛 GPLT
- [Java] 蓝桥杯ALGO-118 算法训练 连续正整数的和
- presentViewController:navigationController animated:YES completion:^(void)
- android 退出功能,android中activity连按两次返回键退出功能
- 简析 JSON 中的{}与[]