Word2vec工作原理
1 词向量
2 Word2vec工作原理
由公式2-1可以看出,词向量之间简单的计算方法就能够表达词向量互相的语义关系。图2-1简洁形象地展示了词向量的相加性。
2.1 连续词袋模型
Input层:假定c=2 ,即输入为某个词上下文两个词的单向量。单向量是目前广泛使用的一种将文字转化为计算机能识别的数学符号的方法,它是将词表示为一个向量形式。
Projection层:计算 得到一个和向量,即对输入的某个词的上下文词的单向量作累加求和。
Output层:输出是一个哈夫曼树。语料库中的每个词作为该树的叶子节点,而每个词出现的频率则被当作权重,以此生成一个哈夫曼树。哈夫曼树的特性决定了距离根节点越近的词出现的频率越高。
2.2 Skip-gram模型
Skip-gram模型也是统计语言模型的一种,处理数据时和CBOW是相反的过程,目的是输入一个特征词,通过模型训练后得到该词的上下文信息。其结构模型图如下所示。
Input层即输入层:输入的数据是语料中的中心词,同CBOW模型一样,也是用单向量表示。
Projection层即投影层:此层在Skip-gram模型中没有起到作用,只是为了在结构上和CBOW模型作对比。
Output层即输出层:此层的结构也是最优二叉树,能更生动地表现词频高的向量。
由于本文扩充微博短文本时主要是利用Skip-gram模型训练微博文本,因此接下来详细介绍Skip-gram模型训练词向量的基本原理。
由Sigmoid函数可得,公式2-6为将一个节点分作正类的概率。
Word2vec工作原理相关推荐
- 2021年大数据ELK(十八):Beats 简单介绍和FileBeat工作原理
全网最详细的大数据ELK文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 Beats 简单介绍和FileBeat工作原理 一.Beats 二.FileB ...
- 深入理解Nginx工作原理
1 反向代理 1.1 概念 反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给intern ...
- 高频开关电源原理_程控开关电源的工作原理
本文介绍了开关电源的工作原理以及它的特点. 程控开关电源要要比线性电源复杂得多. 下图是典型的开关电源工作原理图. 首先对 220 V/50Hz 的 AC 输入,通过桥式整流器进行整流 储能电容对整流 ...
- Servlet生命周期与工作原理
Servlet生命周期分为三个阶段: 1,初始化阶段 调用init()方法 2,响应客户请求阶段 调用service()方法 3,终止阶段 调用destroy()方法 Servlet初始化阶段: 在 ...
- java的工作原理你知道吗_每天用Mybatis,但是Mybatis的工作原理你真的知道吗?
近来想写一个mybatis的分页插件,但是在写插件之前肯定要了解一下mybatis具体的工作原理吧,于是边参考别人的博客,边看源码就开干了. 核心部件:SqlSession Executor Stat ...
- linux网络管理原理,Linux__网络管理(物理层 数据链路层 网络层工作原理)
千锋云计算逆战班11点后打卡 今天学习后,进行复习下,物理层 数据链路层 网络层 的工作原理 物理层关心的两件事情:1.信号 2.介质 先说信号:信号分为模拟信号和数字信号 模拟信号: 模拟信号,不 ...
- HDD工作原理 导图
以上导图介绍了我们使用的 (HDD)机械硬盘的基本构造以及核心工作原理,对于大家扫盲有所帮助 参考文档: https://blog.csdn.net/yizhaoxin/article/details ...
- 路由和交换机工作原理
路由器与交换机的工作原理 计算机网络往往由许多种不同类型的网络互连连接而成.如果几个计算机网络只是在物理上连接在一起,它们之间并不能进行通信,那么这种"互连"并没有什么实际意义.因 ...
- Google工作原理
今天在晚上看到一个图,讲解google的工作原理,感觉写的不错.贴过来方便以后深入的研究. 转载于:https://www.cnblogs.com/muyuge/archive/2010/07/06/ ...
最新文章
- 谷歌入华,抢在搜索之前的是Waymo无人驾驶
- Docker:学习笔记(1)——基础概念
- JDK和JRE的区别-zz
- 数据切分——Mysql分区表的管理与维护
- redis 字符串数据(string)
- 废掉一个产品经理最常见的方式,就是天天画原型
- [sitemap 索引情况提示] 根据 sitemap 的规则[0],当前页面 [pages/loading/loading] 将被索引
- python连接linux后一步一步的操作_Python使用技巧
- Python中的strip(),lstrip(),rstrip()的用法
- HC-SR04超声波传感器
- Python利用GUI界面制作B站弹幕分析工具
- 树莓派4B设置USB启动
- win10连接共享打印机_共享打印机的三种安装连接方法
- android+仿ios+音乐播放器,iOS简单的音乐播放器(仿QQ音乐)
- java实现根据指定日期获取今年 去年 本季度 上个季度 本月 上个月的值
- redis 压缩存储 json
- 软件工程笔记:Pos系统的分析与设计案例
- 食物网的结构动力学和鲁棒性 | Structural dynamics and robustness of food webs
- mysql update select 从查询结果中更新数据
- 宫崎步 brave heart 歌词加谐音