台大李宏毅Machine Learning 2017Fall学习笔记 (13)Semi-supervised Learning

本博客参考整理自:
http://blog.csdn.net/xzy_thu/article/details/69808817#t8
半监督学习的训练数据,有一部分是标注数据,有一部分是无标注数据。
Transductive learning(直推学习)和Inductive learning(归纳学习)都可算是半监督学习,区别在于前者的无标注数据是测试数据(除去label),而后者的无标注数据不包括测试数据。实际中用哪种常取决于是否有测试集。
题外话:Transductive Learning:从彼个例到此个例,有点象英美法系,实际案例直接结合过往的判例进行判决。关注具体实践。
Inductive Learning:从多个个例归纳出普遍性,再演绎到个例,有点象大陆法系,先对过往的判例归纳总结出法律条文,再应用到实际案例进行判决。从有限的实际样本中,企图归纳出普遍真理,倾向形而上,往往会不由自主地成为教条。参考博客:
http://blog.csdn.net/wendox/article/details/50474264。
无标注数据的分布会让我们做出一些假设,半监督学习有没有用就取决于假设是否合理。

Semi-supervised Learning for Generative Model(生成模型的半监督学习)

若全部是带标签数据,监督模型的建立过程前面小节中讲过,得到的模型如下:

半监督生成模型的建立过程,无标注数据有助于重新估计生成模型假设中的参数,从而影响决策边界。采用EM算法


EM的每次(E步、M步)都让likelihood增加一点。

Semi-supervised Learning Low-density Separation(半监督学习:低密度分离)

Self−trainingSelf-training
从标注数据得到模型f∗f^*(用什么方法都可以),将模型f∗f^∗ 用于无标注数据得到伪标签,将一部分无标注数据连同伪标签移入标注数据中(选择那些无标注数据是开放性的,可以给每个伪标签一个权重),重复训练、再次得到f∗......f^*......。具体流程如下图所示:

回归问题用self-training不影响f∗f^*,所以回归问题不能用self-training方法。
self-training类似于生成模型的半监督学习,区别在于:self-training是硬标签,而Semi-supervised Learning for Generative Model是软标签。
对神经网络来讲,用软标签是没有用的。用硬标签就相当于用Low-density Separation Assumption(强制属于某一类,非黑即白)。
Entropy−basedRegularizationEntropy-based Regularization
如果神经网络的输出是一个分布,我们希望这个分布要集中。

Semi-supervised Learning Smoothness Assumption(半监督学习:平滑假设)

假设特征的部分是不均匀的(在某些地方集中,某些地方分散),如果两个特征在高密度区域是相近的,那么二者的标签是相同的。


上图中,两个“2”之间有各种2的变体,两个正侧面之间有45°侧面、正面等。
用聚类再标注的方法,可以,但是用像素做聚类结果不会很好,因为有的同类不像,有的异类相像。应该先用deep autoencoder抽feature,再做聚类。
也可以用图结构来表示高密度区域,图的建立与结果很关键。

定义s(xi,xj)s(x^i,x^j)的时候,如果xi,xjx^i,x^j是图像,那么根据像素定义相似度结果应该不会好,用autoencoder抽feature比较好。
exp指数函数是必要的,可以带来比较好的performance,让距离稍远一点s就很小。
用基于图的方法需要data足够多,不然信息传不过去。

定义平滑度,将其作为损失函数中的正则项:



计算smoothness不一定是在output算

Semi-supervised Learning Better Representation(半监督学习:更好的表示)

精神:寻找在表面观察背后隐藏着的更好的表示。

台大李宏毅Machine Learning 2017Fall学习笔记 (13)Semi-supervised Learning相关推荐

  1. 台大李宏毅Machine Learning 2017Fall学习笔记 (16)Unsupervised Learning:Neighbor Embedding

    台大李宏毅Machine Learning 2017Fall学习笔记 (16)Unsupervised Learning:Neighbor Embedding

  2. 台大李宏毅Machine Learning 2017Fall学习笔记 (14)Unsupervised Learning:Linear Dimension Reduction

    台大李宏毅Machine Learning 2017Fall学习笔记 (14)Unsupervised Learning:Linear Dimension Reduction 本博客整理自: http ...

  3. 台大李宏毅Machine Learning 2017Fall学习笔记 (12)Why Deep?

    台大李宏毅Machine Learning 2017Fall学习笔记 (12)Why Deep? 本博客整理自: http://blog.csdn.net/xzy_thu/article/detail ...

  4. 台大李宏毅Machine Learning 2017Fall学习笔记 (11)Convolutional Neural Network

    台大李宏毅Machine Learning 2017Fall学习笔记 (11)Convolutional Neural Network 本博客主要整理自: http://blog.csdn.net/x ...

  5. 台大李宏毅Machine Learning 2017Fall学习笔记 (10)Tips for Deep Learning

    台大李宏毅Machine Learning 2017Fall学习笔记 (10)Tips for Deep Learning 注:本博客主要参照 http://blog.csdn.net/xzy_thu ...

  6. 台大李宏毅Machine Learning 2017Fall学习笔记 (9)Keras

    台大李宏毅Machine Learning 2017Fall学习笔记 (9)Keras 本节课主要讲述了如何利用Keras搭建深度学习模型.Keras是基于TensorFlow封装的上层API,看上去 ...

  7. 台大李宏毅Machine Learning 2017Fall学习笔记 (8)Backpropagation

    台大李宏毅Machine Learning 2017Fall学习笔记 (8)Backpropagation 当网络结构很复杂时,会有大量的参数.∇L(θ)\nabla L(\theta)是百万维的向量 ...

  8. 台大李宏毅Machine Learning 2017Fall学习笔记 (7)Introduction of Deep Learning

    台大李宏毅Machine Learning 2017Fall学习笔记 (7)Introduction of Deep Learning 最近几年,deep learning发展的越来越快,其应用也越来 ...

  9. 台大李宏毅Machine Learning 2017Fall学习笔记 (6)Logistic Regression

    台大李宏毅Machine Learning 2017Fall学习笔记 (6)Logistic Regression 做Logistic Regression回归,需要3步. Step 1: Funct ...

最新文章

  1. Android Studio报错解决:droid.tools.idea.welcome.install.WizardException: SDK tools directory is missing
  2. canvas绘制时钟
  3. CentOS 6.3 64bit 搭建vsFTP服务
  4. 递归 反转字符串_使用递归反转字符串
  5. [你必须知道的.NET] 开篇有益
  6. ASP.NET Session丢失问题原因及解决方案[转]
  7. java 原子量Atomic举例(AtomicReference)
  8. Java 基础-面试题
  9. 牛客多校第五场 A digits 2 签到
  10. Eclipse 取消import自动补全具体的类名
  11. Spark读取本地文件和HDFS文件
  12. matlab中给图像加几个矩形框_如何用 matlab 在图片上绘制矩形框 和 添加文字 ?...
  13. Arm云游戏及虚拟化技术沙龙,Arm中国,NVIDIA,腾讯及百度等为你分享超强技术干货
  14. 吴恩达深度学习——编程1
  15. Python 练习题
  16. linux 64 输入法下载,搜狗输入法 for Linux
  17. hihoCoder 1425 : What a Beautiful Lake(美丽滴湖)
  18. 【Python网络编程】爬取百度贴吧、小说内容、豆瓣小说、Ajax爬微博、多线程爬淘宝
  19. BNUZ-ACM 2019国庆新生欢乐赛 E.如风般奔跑(题目详解+代码)
  20. 用PHP查看微信撤回的消息,python实现文件助手中查看微信撤回消息

热门文章

  1. CSS样式表操作及选择器定义
  2. 张正友标定算法理论及算法实现
  3. python爬取贴吧图片_Python爬取贴吧多页图片
  4. 计算机的进制数思想在哪方面有应用,计算机应用技术问答题(一)
  5. php admin_priv,ECshop后台开发模块步骤
  6. windows10计算机用户密码,忘记Windows 10系统密码?教你重置
  7. github 仓库管理及代码上传
  8. ssh整合mysql不能自动生成表_ssh整合思想 Spring与Hibernate的整合 项目在服务器启动则自动创建数据库表...
  9. 计算机硬盘不识别u盘启动,快启动U盘启动pe系统无法识别硬盘怎么办?
  10. 新建oracle数据库 环境查询,Oracle单实例数据库迁移到Oracle RAC 环境之(2)--实施篇...