李宏毅机器学习16—Unsupervised learning:word embedding
Unsupervised learning:word embedding
无监督学习:词嵌入
摘要:这节课通过介绍word embedding,说明什么是无监督学习以及word embedding的两种实现方法,简单介绍了一些运用word embedding方法的实际应用。,
目录
一、什么是word embedding
二、两种实现方法:
1.count based
2.prediction based
三、如何训练这个神经网络
四、Prediction-based model的其他类型
五、Word embedding的一些应用成果
总结:
一、什么是word embedding
用向量表示word的方法:
1-of-N encoding
缺陷:没有办法区分单词之间的联系。
改进方法:可以增加词分类。
问题又来了,不同的词分类也存在一定的联系,这该如何改进?
Word embedding:把每个word向量都投影到一个多维度体系中。不同的维度具有不同的含义
Generating word vector是无监督的:向神经网络输入一个单词,输出为word embedding对应的向量。(只有输出,没有输出的样子)
原理:理解一个单词意思是通过上下文语境
二、两种实现方法:
1.count based
如果有两个单词wi和wj常常出现在同一篇文章,那么它们的vector可能是非常接近的
2.prediction based
训练的神经网络,输入是wi-1的1-of-n encoding向量,输出是每个单词作为下一个输出wi的可能性。(有多少单词,输出就有多少维度)
对于任意一个单词,将这个神经网络的第一层的输入拿出来,当做word embedding的word vector。(对于任意的单词,拿出来的输入都是唯一的)
为什么第一层的输入与word embedding中的vector是接近的?
对于上面两句训练文字,我们希望输入两个名字,得到的输出都是宣誓就职。
因为不同的输入得到相同的输出,这意味在第一层输出之前,神经网络对这两个词进行了一些处理,使它们具有相似的特征,这样得到的vector在word embedding的维度也是相近的。
由于针对wi-1来输出wi的可能性太多了,所以可以对这个方法做一些改进。
不只看前一个词汇,可以看前面n个词汇。
需要注意的是,同样维度的1-of-n encoding连接第一层中相同神经元的weight是一样的。
这样做可以减少参数量。
用公式来表示:
Xi-1和Xi-2的长度都是|v|
神经网络第一层z的长度为|z|
Z=w1* Xi-2+w2* Xi-1
W1和W2都是|z|*|v|维的矩阵。
令w1=w2=w,这时候z=w(xi-2+xi-1)
如何让w1和w2相等?
三、如何训练这个神经网络
例句:潮水退了就知道谁…
每次输入两个word,输出结果与后续的word做交叉熵,取交叉熵之和的最小值。
四、Prediction-based model的其他类型
Continuous bag of word (CBOW):拿前后的word来预测中间的word
Skip-gram:拿中间的word来预测上下文的word
Word vector并不需要用DNN
五、Word embedding的一些应用成果
1.将不同国家和首都放在一个维度
2.将动词的三个时态联系起来
3.如果B属于A,那么A和B的word vector相减,它们的结果是类似的。
由此可以得到一些推论。
罗马和意大利的word vector相减,近似等于柏林-德国。这样计算机就可以通过计算
V(柏林)-V(罗马)+V(意大利),得到柏林对应的word。(相比于罗马对应意大利)
根据一些已知的中英对照的word vector,可以训练出一个神经网络,来实现未知的中英的word vector的对照关系,就可以实现翻译功能
还可以应用于影像分类
已知汽车,狗和马的图像分布位置。对于一个新的图像,对它进行perdition-based,得到的vector可以使其分布在它所属于物种的周围。
虽然之前没有猫这个图像,但是通过perdition-based也可以把它分布在适当的位置。
总结:
word embedding主要想法是通过将事务转化为vector,并且相同类型的事务,它们的vector是接近的,这样对不同事务可以进行一些分类,联系等实际应用。
word embedding的输入、输出数据量是非常大的,但是神经网络中的参数则相对少很多。
李宏毅机器学习16—Unsupervised learning:word embedding相关推荐
- 【李宏毅机器学习】Unsupervised Learning - Word Embedding 无监督学习 - 词嵌入(p22) 学习笔记
文章目录 Unsupervised Learning Word Embedding 用一个vector来表示一个word的几种方法 1-of-N Encoding Word Class Word Em ...
- 台大李宏毅Machine Learning 2017Fall学习笔记 (16)Unsupervised Learning:Neighbor Embedding
台大李宏毅Machine Learning 2017Fall学习笔记 (16)Unsupervised Learning:Neighbor Embedding
- 李宏毅老师课程:Unsupervised Learning - Word Embedding
词嵌入:word embedding Introduction Word Embedding Count based Prediction based Sharing Parameters Train ...
- 【李宏毅2020 ML/DL】P22 Unsupervised Learning - Word Embedding
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-note ...
- 李宏毅ML lecture-14 unsupervised Learning Word Embeddng
李宏毅ML lecture-14 unsupervised Learning--Word Embeddng https://blog.csdn.net/Arron_hou/article/detail ...
- 李宏毅深度学习--《Unsupervised Learning:Neighbor Embedding》
<Unsupervised Learning:Neighbor Embedding> Manifold Learning Locally Linear Embedding (LLE) La ...
- 李宏毅机器学习-explainable machine learning(机器学习的可解释性)及代码
目录 为什么需要机器学习的可解释性? Interpretable VS Powerful 什么叫做好的 Explanation explainable ML的分类 Local Explanation( ...
- 【李宏毅2020 ML/DL】P58 Unsupervised Learning - Neighbor Embedding | LLE, t-SNE
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-note ...
- 李宏毅机器学习之Deep Learning简介
一.深度学习的发展趋势 1958:Perceptron(linear model) 1969:Perceptron has limitation 1980:Multi-layer perceptron ...
最新文章
- 你知道人工智能为什么这么火?
- c#下各种数据库操作的封装!(支持ACCESS,SQLSERVER,DB2,ORACLE,MYSQL)(四)
- java a =a-=aa_Java求s=a+aa+aaa+aaaa+aa...a的值
- PopupWindow的基本使用
- 超硬核!学霸把操作系统经典算法给敲完了!要知行合一
- codeforce 457DIV2 C题
- 聊天机器人-ChatterBot初试
- react div 事件优先级_React 架构的演变 更新机制
- html5 心,HTML5你必须知道的28个新特性
- 【报告分享】2020中国低代码平台指数测评报告.pdf(附下载链接)
- Netty in action—Netty中的ByteBuf
- 基于Linux的录像机:Neuros OSD
- ESP8266-Arduino编程实例-L3GD20三轴角速率传感器驱动
- 一个26岁没文凭,想去努力自学编程,有机会成为程序员吗?
- 基于CNONIX国家标准的出版社ERP系统建设分享
- Java Web 网络商城案例演示一、(环境搭建)
- 人工智能时代,有哪些新的职业机会?
- 调用阿里云身份证识别OCR
- iNFTnews | 86年前的DAO:嗜酒者互诫协会
- 玩家任务表(每个玩家应该有14条任务记录,需要根据任务配置表补全玩家任务表,原有记录不能修改把每人缺失的任务记录补上)
热门文章
- 当“气象+”遇到水文——技术篇
- 智科1912刘嘉文的人工智能协会作业
- 最后还是菜是原罪—华为武研所优招面经
- jquery.offset()使用方法总结
- 数学建模 案例分析——“建立可持续发展的社区智能增长策略”
- python二手车之家汽车数据分析与推荐flask_协同过滤_爬虫
- python 开发APP教程
- Flutter 会不会被苹果限制其发展?
- 计算机视觉领域常见英文期刊和会议的缩写
- synchronized锁住的到底是什么