由于要做迁移学习项目, 按照李宏毅给出的学习路线图, 计划分别看无监督学习(第九章), 异常检测(第十章), 迁移学习(第12章). (但可能要鸽了, 马上要开始项目, 接下来一段时间直接看迁移学习相关. 希望以后有机会回来填坑.)

目录

无监督学习介绍

无监督学习

聚类

K-means

层次聚类HAC

降维

降维有助于学习的原因

如何降维

PCA数学推导

降到1维

降到多维空间

求解PCA-拉格朗日乘子法

计算w1

计算w2

去相关性

PCA算法原理

重建组件

PCA所得W最小化 重建误差证明

自编码器


无监督学习介绍

无监督学习

无监督学习(Unsupervised Learning)可以分为两种:

1. 化繁为简:聚类(Clustering), 降维(Dimension Reduction)

2. 无中生有: Generation

无监督学习(Unsupervised Learning)通常只会拥有xy中的一侧(x或y).

1. 化繁为简: 复杂的input->简单的output,此时训练集只有输入x,而没有输出y. 比如把unlabel的树图片转变为一棵抽象的树.

2. 无中生有: 给function一个不同数字,生成不同的图像,此时训练集没有输入x,只有输出y.

聚类

Clustering聚类,把相近的样本划分为同一类,比如对无标签图片进行分类,打上cluster 1、2、3的标签,这个分类过程化繁为简.

目前分几个cluster的问题主要还依据经验选定.

K-means

聚类中最常用的方法K-means. 步骤:

1. 已有unlabeled data ,要划分为K个cluster.

$$ X = \left\{ {x^{1},\cdots,x^{n},\cdots,x^{N}} \right\} $$

其中每个样本用一个向量表示.

2. 每个簇选一个样本向量作为center ,K个簇需要K个center初始值.

3. 遍历所有的样本x,判断其所属簇,如果与第i个簇的center 最接近,则归于该簇.

b^n_i=1表示第n个样本属于第i个簇,b^n_i=0表示不属于:

$$ b_{i}^{n} \begin{cases}1 & x^{n} \text { is most "close" to } c^{i} \\ 0 & \text { Otherwise }\end{cases} $$

4. 更新center:把每个簇里所有样本均值作为新的center值,即

$$ c^{i} = {{\sum_{x^{n}}{b_{i}^{n}x^{n}}}/{\sum_{x^{n}}b_{i}^{n}}} $$

反复进行3,4操作.

注:如果不从原先的data set里取center的初始值,可能会导致部分cluster没有样本点

层次聚类HAC

Hierarchical Agglomerative Clustering

假设有5个样本点,聚类步骤:

1. 建立树结构

对5个样本点两两计算相似度,挑出最相似的一对,设为样本点1和2.

将样本点1和2合并(可以对两个vector取平均),生成代表这两个样本点的新结点.

此时只剩下4个结点,两两计算相似度, 重复上述步骤进行样本点的合并,直到只剩根结点.

过程类似建立Huffman 树,区别是Huffman依据词频,HAC依据相似度建树.

2. 选取阈值

在构造好的树上横着切一刀,相连的叶结点属于同一个簇.

不同颜色的横线和叶结点上不同颜色的方框对应着切法与cluster的分法

HAC和K-means最大区别: 如何决定簇的数量.

在K-means直接决定K值;

HAC决定这一刀切在树的哪里, 不需要精确知道需要分几类.

降维

聚类clustering缺点: 以偏概全,强迫每个样本属于某个簇.

降维Dimension Reduction即分布式表示Distributed Representation, 可用两个角度理解.

1. 分布式表示Distributed Representation的角度: 样本具有多个簇的特征, 用向量表示样本比单一类别更好, 向量每一维都代表object的某种属性.

例子: 小杰的念能力分布,不仅仅归为强化系.

強化系

0.70

放出系

0.25

變化系

0.05

操作系

0.00

具現化系

0.00

特質系

0.00

2. 降维(Dimension Reduction): 原样本高维(image),用其特值来描述可转变为低维空间.

降维有助于学习的原因

设数据呈3D螺旋式分布,用3D空间描述很浪费,把卷摊平后用2D的空间即可.

MNIST(手写数字集),每一张图片有28*28维,但大多数其他的28*28维向量表示的图片,都不像数字,所以描述数字需要的维度可能远小于28*28.

例: 几张表示“3”的图片,可以用一个端正的"3"的特征, 加角度就可以多描述原先28*28 维的图像.

抓住角度的变化即可描述28维空间中的变化. 28维pixel=樊一翁的胡子; 1维的角度=他的头

如何降维

降维要找一个function,其输入原始的x,输出维度更小的z.

最简单的方法是特征选择Feature Selection,即拿掉一些直观上就对结果没有影响的维度, 如图只需要x2维度:

该方法有时无法使用,如下图中的螺旋卷任何一个dimension都不能被拿掉:

另一个常见的方法PCA(Principe Component Analysis): 其降维用线性函数,对输入x线性变换(linear transform)得输出z. 系数W由PCA找出.

$$

李宏毅ML笔记14:降维/无监督-线性方法相关推荐

  1. kaggle信用卡欺诈看异常检测算法——无监督的方法包括: 基于统计的技术,如BACON *离群检测 多变量异常值检测 基于聚类的技术;监督方法: 神经网络 SVM 逻辑回归...

    使用google翻译自:https://software.seek.intel.com/dealing-with-outliers 数据分析中的一项具有挑战性但非常重要的任务是处理异常值.我们通常将异 ...

  2. python笔记14介绍几个魔法方法

    python笔记14介绍几个魔法方法 先声明一下 各位大佬,这是我的笔记. 如有错误,恳请指正. 另外,感谢您的观看,谢谢啦! (1).__doc__ 输出对应的函数,类的说明文档 print(pri ...

  3. 聚类算法 距离矩阵_快速且不需要超参的无监督聚类方法

    论文: Efficient Parameter-free Clustering Using First Neighbor Relations Efficient Parameter-free Clust ...

  4. 【Python-ML】无监督线性降维PCA方法

    # -*- coding: utf-8 -*- ''' Created on 2018年1月18日 @author: Jason.F @summary: 特征抽取-PCA方法,无监督.线性 ''' i ...

  5. [吴恩达机器学习笔记]14降维3-4PCA算法原理

    14.降维 觉得有用的话,欢迎一起讨论相互学习~Follow Me 14.3主成分分析原理Proncipal Component Analysis Problem Formulation 主成分分析( ...

  6. NAACL 2021 | AWS AI 提出基于对比学习的端到端无监督聚类方法

    ©PaperWeekly 原创 · 作者 | 李婧蕾 学校 | 北京邮电大学硕士生 研究方向 | 自然语言处理 Abstract 无监督聚类的目的是根据在表示空间中的距离发现数据的语义类别.然而,在学 ...

  7. 经典论文复现 | InfoGAN:一种无监督生成方法

    过去几年发表于各大 AI 顶会论文提出的 400 多种算法中,公开算法代码的仅占 6%,其中三分之一的论文作者分享了测试数据,约 54% 的分享包含"伪代码".这是今年 AAAI ...

  8. 李宏毅ML笔记12:半监督

    目录 生成式模型 有监督生成式模型 半监督生成式模型 直观解释 具体操作 基本原理 低密度分离假设 Self Training Self Training与generative model对比 基于熵 ...

  9. 李宏毅ML笔记7:为什么深度学习

    目录 深宽对比 模组化 图像辨识例子 模组化思想 DL与模组化关系 模组化的好处: 语音例子 语音辨识的过程 传统方法HMM-GMM DL做法 DL原理类比 Toy Example End-to-en ...

  10. 李宏毅机器学习笔记(十六)——无监督学习(四):自编码器

    文章目录 一.自编码器的引入 二.自编码器的应用 1.文本检索 2.寻找相似图片 3.预训练神经网络 4.面向图片的自编码器 5.进行内容生成 三.自编码器的改进 1.去除噪音 2.重定义损失函数 3 ...

最新文章

  1. OpenCV中高斯混合背景建模算法汇总
  2. html调用deeplink,如何优雅地从浏览器打开本地应用deeplink
  3. 1013 B. And
  4. 【原】npm 常用命令详解
  5. joblib多线程、多进程学习案例(一)——一步步写多进程任务
  6. 复购分析实践中,Pandas 遇到了大难题
  7. 区块链 共识算法 分类
  8. maven中dependency的属性(依赖)配置
  9. html用css美化表格
  10. radon变换的原理-通过直线方程式的计算来检测出直线
  11. 打开html文件网页崩溃,浏览器打开就崩溃,浏览器页面打不开
  12. 空间相册怎么移到计算机里,qq空间上传照片_怎样把电脑里存的照片传到qq空间??...
  13. 陶哲轩实分析 5.2 节习题试解
  14. 七牛云邵杰:视觉智能——视频云新时代
  15. 解决md导入CSDN中图片大小过大 改变图片的大小
  16. 如何应对面试官问你职业规划问题
  17. 金蝶中间件AAS无法访问管理平台提示404
  18. 谷歌浏览器如何查css,谷歌浏览器查看编辑元素CSS样式_谷歌工具
  19. IntelliJ IDEA(Ultimate版本)的下载、安装和WordCount的初步使用(本地模式和集群模式)...
  20. 网络爬虫的基本原理是什么?

热门文章

  1. gpio rk3399 控制_RK3326 RK3399 GPIO寄存器操作笔记
  2. Android手机视频监控系统
  3. 计算机就业去哪个岗位好? 算法岗位还是开发岗位更好?
  4. java--------------
  5. CSS minification error
  6. Tomcat配置https 访问http跳转https 配置域名
  7. 鸿蒙os beta3.0怎么升级,鸿蒙系统 2.0 Beta3.0版本更新详解
  8. 原来使用 Pandas 绘制图表也这么惊艳!
  9. windows10关闭java自动更新
  10. NTDETECT.COM 丢失(NTDETECT failed)解决方法