NLP笔记:word2vec简单考察
- NLP笔记:word2vec简单考察
- 1. 简介
- 2. word2vec原理介绍
- 3. gensim实现
- 4. tensorflow实现
- 1. cbow方式
- 2. skip gram方式
- 3. 直接生成方式
- 4. 结论
- 5. pytorch实现
- 1. cbow方式
- 2. skip gram方式
- 6. 总结
- 7. 参考链接
1. 简介
word2vec是nlp之中蛮老的一个技术了,讲道理工作了两年多也基本没有用过这个玩意,除了刚开始工作的时候用了一下之后后面基本就是直接训练了。
word2vec顾名思义,其实就是将word从id转换至一个embedding向量,算是一个比较原始的迁移学习方式,从大量的无标注数据中训练出词向量,然后迁移至其他学习任务当中,可以更好地对词向量进行表达。
在早期的nlp任务当中,像是ner啊或者pos等任务当中,我们往往缺乏足够多的标注数据(事实上现在这部分标注数据也不多),因此我们往往会希望通过其他方式预先学习到一些词向量信息,这样就可以减轻模型整体的学习难度,进而优化模型的整体效果。
其中,关于word2vec一个比较有代表性的工作就是glove词向量。
但是当数据量本身足够时,这种方式就显得有些没有必要,更不要说后面以bert为代表的预训练语言模型的出现之后,word2vec技术就显得太过粗糙也没有必要了。
事实上,就笔者个人所知,从18年底之后似乎也就基本再没有在听到过什么相关的工作了。
但无论如何,作为一种早期的预训练词向量技术,这里还是可以来稍微复习一下的,实在不行用来熟练一下tensorflow以及pytorch的coding技术也是可以的
NLP笔记:word2vec简单考察相关推荐
- NLP笔记:常用激活函数考察整理
NLP笔记:常用激活函数考察整理 0. 引言 1. 常用激活函数 1. sigmoid 2. softmax 3. relu系列 1. relu 2. leaky relu 3. elu 4. sel ...
- 【NLP】Word2Vec详解(含数学推导)
word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练:并且,该工具得到的训练结果--词向量(word embedding),可以很好地度量词与词之间的相似性.随着深度学习(Deep L ...
- NLP 笔记:Skip-gram
1 skip-gram举例 假设在我们的文本序列中有5个词,["the","man","loves","his",&qu ...
- NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量
NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量 目录 输出结果 设计思路 1.Wikipedia Text语料来源 2.维基 ...
- python自训练神经网络_tensorflow学习笔记之简单的神经网络训练和测试
本文实例为大家分享了用简单的神经网络来训练和测试的具体代码,供大家参考,具体内容如下 刚开始学习tf时,我们从简单的地方开始.卷积神经网络(CNN)是由简单的神经网络(NN)发展而来的,因此,我们的第 ...
- VC学习笔记:简单绘图
VC学习笔记:简单绘图 SkySeraph Oct.29th 2009 HQU Email-zgzhaobo@gmail.com QQ-452728574 Latest Modified Date ...
- STM32F429I-Discovery学习笔记--(1)简单上手和官方例程的下载与使用
STM32F429I-Discovery学习笔记–(1)简单上手和官方例程的下载与使用 到手测试 收到开发板后我们要首先检查一下外观有没有磕碰破损,排针是否发生弯折,重要的是看一下JP3和CN4处的跳 ...
- Tensorflow2学习笔记:简单灰度图分类
Tensorflow2学习笔记:简单灰度图分类 相关介绍 实验环境 实验步骤 导入相关库 导入数据集 浏览数据 预处理数据 构建模型 设置层 编译模型 训练模型 向模型馈送数据 评估准确率 进行预测 ...
- NLP之Word2Vec:Word2Vec算法的简介(CBOW和Skip-Gram及其对比)、安装、使用方法之详细攻略
NLP之Word2Vec:Word2Vec算法的简介(CBOW和Skip-Gram及其对比).安装.使用方法之详细攻略 目录 Word2Vec算法的简介 1.Word2Vec算法的概述-更好的文本表示 ...
最新文章
- Android多媒体框架之MediaMetadataRetriever
- Ansible第二篇:ansible-playbook
- 南邮java大作业实验报告_南京邮电大学java第三次实验报告
- Ubuntu 中python 升级到3 后apt-get 一直报错
- nginx.conf 基本配置模板和结构
- [基础题] * 9.(*)设计一个Student接口,以一维数组存储一个班级的学生姓名。
- android 拍照换头像,Android调用相机拍照,裁剪及更换头像功能的实现
- vue之computed和watch
- (计算机组成原理)第三章存储系统:本章习题
- JAVA-SWING:生成透明JTable
- 阿里云服务器之建立个人博客
- npm publish 报错 403
- 猴子偷桃(Java实现)
- mysql自定义函数的分号_MySQL 第八篇:自定义函数、存储过程、游标-阿里云开发者社区...
- 算法 - 随机密码生成算法
- 24只胡萝卜的管理精神(节录)
- oracle xe连接数,解决Oracle XE允许连接的用户数不足问题
- 网络上各家分享CAD图纸如何分辨好坏呢?
- 年纪轻轻竟脱发?头发到底该如何挽回?
- 《viva la vida》 歌词
热门文章
- 优秀的数据可视化设计
- tsconfig之moduleResolution详解
- android 8省电,智能手机怎么省电?Android手机省电攻略
- html源码解析函数,源码解读
- css3 文字 特效_惊人CSS3文字效果
- [Java Path Finder][JPF学习笔记][8]几篇使用JPF的论文
- 快速说唱教学第五期:三分钟教你如何改善自己的音色?
- tableau电商数据看版的制作
- 嘉为科技荣登 “2021年福布斯中国企业科技50强”
- 红外弱小目标检测之“Infrared Patch-Image Model for Small Target Detection in a Single Image”阅读笔记