Reducing the Dimensionality of Data with Neural Networks, Hinton et al., 2006, science.

摘要 作者提出用 auto encoder 实现降维, 性能远超 pca. 作者同时发现 deep auto encoder network 非常依赖 effective initialization.

背景 AutoEncoder 基本理论 (高维-低微-高维, 重构输入), AutoEncoder 不易用梯度训练, 需要较好的预训练做为初始化.

RBM 二值两层神经网络, 最小化能量函数 (最大化联合概率).

逐层 RBM activation 预训练

data hidden visible activation
original binary binary binary stochastic
continuous binary gaussian logistic

前一次的 hidden 激活之后作为下一层的 visible.

预训练必要性

未经预训练, deep auto encoder network 倾向于学到训练数据的平均值, shallow auto encoder network 需要更长的训练时间.

MNIST 上, SVM 错误率 1.4%, 随机初始化前馈全连接神经网络错误率 1.6%, 预训练前馈全连接神经网络错误率 1.2%, 预训练有助于泛化. 标签信息仅用作微调.

数据集

2 维平面上 3 点之间二次曲线段 (图像)

内在维度 6 (二次曲线贡献 3 个内在维度, 坐标系旋转贡献 1 个内在维度, 起始位置贡献 2 个内在维度)
(恰好等于用于生成样例的信息的维度, 3 个点的 2 维坐标)

像素取值 [0,1], 严重偏离高斯分布, 因此采用交叉熵损失.

−∑p∈pixelplog⁡p^−∑p∈pixel(1−p)log⁡(1−p^)- \sum_{p \in \mathrm{pixel}} p \log \hat{p} - \sum_{p \in \mathrm{pixel}} (1-p) \log (1-\hat{p}) −p∈pixel∑​plogp^​−p∈pixel∑​(1−p)log(1−p^​)

Hinton 2006 science 文章 RBM 预训练 AutoEncoder相关推荐

  1. 预训练word2vec--Word2Vec实现(二)

    文章目录 预训练word2vec 跳元模型 嵌入层 定义前向传播 训练 二元交叉熵损失 初始化模型参数 定义训练阶段代码 应用词嵌入 小结 预训练word2vec 现在,我们将在PTB数据集上使用负采 ...

  2. 《预训练周刊》第15期:Bengio, Lecun, Hinton | 人工智能深度学习、用于图像分类的全局过滤网络...

    No.15 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第15期&l ...

  3. 自然语言处理中的语言模型与预训练技术的总结

    目录 0. 背景 1. 统计语言模型(Statistical Language Model) 马尔科夫假设(Markov Assumption) N-Gram模型 拉普拉斯平滑(Laplace Smo ...

  4. 清华刘知远组:​让预训练语言模型持续高效吸收新领域知识 | ACL 2022

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 论文标题: ELLE: Efficient Lifelong Pre ...

  5. 《预训练周刊》第16期:中科院推出全球首个图文音三模态预训练模型、顶会论文探索100层序列推荐模型的加速训练...

    No.16 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第16期&l ...

  6. 预训练后性能反而变差,自训练要取代预训练了吗?

    2020-07-18 13:53:03 编译 | JocelynWang 编辑 | 丛 末 早在2018年底,FAIR的研究人员就发布了一篇名为<Rethinking ImageNet Pre- ...

  7. 【预训练模型】一文串起从NLP到CV 预训练技术和范式演进

    主题是深度学习中的预训练技术发展,基本思路是顺着CV和NLP双线的预训练技术发展演进.看他们怎么影响和交织. 序言 会大致的看一下,在2013年,在CNN时代的word2vec,在2020年,Bert ...

  8. 微软提出AdaLM,用于开发小型、快速且有效的领域预训练语言模型

    ©作者 | 常馨 学校 | 北京邮电大学硕士生 研究方向 | NLP.信息检索 论文标题: Adapt-and-Distill: Developing Small, Fast and Effectiv ...

  9. KDD 2020 开源论文 | GPT-GNN:图神经网络的生成式预训练

    论文标题:GPT-GNN: Generative Pre-Training of Graph Neural Networks 论文链接:https://arxiv.org/abs/2006.15437 ...

最新文章

  1. MPB:利用无菌植物和可培养细菌体系研究根系微生物组功能
  2. 让seo效果起死回生的妙招
  3. Java多线程设计模式(1)
  4. 四合一图床HTML网站源码
  5. Dynamics AX 2012–HR-离职
  6. mysql sqlsugar_sqlSugar的使用---入门
  7. python操作docx入门教程
  8. 2012年8月20日 我单身了!
  9. Linux学习笔记 --组管理和权限管理
  10. Linux服务器---配置apache支持用户认证
  11. DLL初步和钩子入门
  12. MySQL/InnoDB的并发插入Concurrent Insert
  13. android pdf阅读器推荐,四款好用的PDF阅读器推荐,建议收藏!
  14. python 图像模糊处理实现
  15. XP不能访问Win7共享
  16. java商城系统设计——秒杀
  17. c4d怎么导入图片描图建模_C4D:你一定想知道的线描效果制作方法
  18. 北京小米Java有笔试吗_小米校招笔试题(java)
  19. Google Chrome 插件推荐
  20. HTML入门学习线路图

热门文章

  1. 腾讯开放平台 应用认领命令行
  2. 红孩儿编辑器的详细设计第四部分
  3. 干扰素相关研究最新进展(2022年4月)
  4. sendcloud php 群发,laravel sendcloud发送邮件
  5. 学计算机高中应该学什么科目,@所有高中生!新高考怎么选科?计算机类专业该怎么选科?...
  6. win10制作软盘,xp下进行编译,最后回到win10运行
  7. 挖掘用户反馈中的宝藏——NLP文本标签化解密
  8. dlib检测人脸landmarks
  9. Android UI线程
  10. HSV对应不同颜色的灰度空间