• NLP笔记:word2vec简单考察

    • 1. 简介
    • 2. word2vec原理介绍
    • 3. gensim实现
    • 4. tensorflow实现
      • 1. cbow方式
      • 2. skip gram方式
      • 3. 直接生成方式
      • 4. 结论
    • 5. pytorch实现
      • 1. cbow方式
      • 2. skip gram方式
    • 6. 总结
    • 7. 参考链接

1. 简介

word2vec是nlp之中蛮老的一个技术了,讲道理工作了两年多也基本没有用过这个玩意,除了刚开始工作的时候用了一下之后后面基本就是直接训练了。

word2vec顾名思义,其实就是将word从id转换至一个embedding向量,算是一个比较原始的迁移学习方式,从大量的无标注数据中训练出词向量,然后迁移至其他学习任务当中,可以更好地对词向量进行表达。

在早期的nlp任务当中,像是ner啊或者pos等任务当中,我们往往缺乏足够多的标注数据(事实上现在这部分标注数据也不多),因此我们往往会希望通过其他方式预先学习到一些词向量信息,这样就可以减轻模型整体的学习难度,进而优化模型的整体效果。

其中,关于word2vec一个比较有代表性的工作就是glove词向量。

但是当数据量本身足够时,这种方式就显得有些没有必要,更不要说后面以bert为代表的预训练语言模型的出现之后,word2vec技术就显得太过粗糙也没有必要了。

事实上,就笔者个人所知,从18年底之后似乎也就基本再没有在听到过什么相关的工作了。

但无论如何,作为一种早期的预训练词向量技术,这里还是可以来稍微复习一下的,实在不行用来熟练一下tensorflow以及pytorch的coding技术也是可以的

NLP笔记:word2vec简单考察相关推荐

  1. NLP笔记:常用激活函数考察整理

    NLP笔记:常用激活函数考察整理 0. 引言 1. 常用激活函数 1. sigmoid 2. softmax 3. relu系列 1. relu 2. leaky relu 3. elu 4. sel ...

  2. 【NLP】Word2Vec详解(含数学推导)

    word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练:并且,该工具得到的训练结果--词向量(word embedding),可以很好地度量词与词之间的相似性.随着深度学习(Deep L ...

  3. NLP 笔记:Skip-gram

    1 skip-gram举例 假设在我们的文本序列中有5个词,["the","man","loves","his",&qu ...

  4. NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量

    NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量 目录 输出结果 设计思路 1.Wikipedia Text语料来源 2.维基 ...

  5. python自训练神经网络_tensorflow学习笔记之简单的神经网络训练和测试

    本文实例为大家分享了用简单的神经网络来训练和测试的具体代码,供大家参考,具体内容如下 刚开始学习tf时,我们从简单的地方开始.卷积神经网络(CNN)是由简单的神经网络(NN)发展而来的,因此,我们的第 ...

  6. VC学习笔记:简单绘图

    VC学习笔记:简单绘图 SkySeraph Oct.29th 2009  HQU Email-zgzhaobo@gmail.com  QQ-452728574 Latest Modified Date ...

  7. STM32F429I-Discovery学习笔记--(1)简单上手和官方例程的下载与使用

    STM32F429I-Discovery学习笔记–(1)简单上手和官方例程的下载与使用 到手测试 收到开发板后我们要首先检查一下外观有没有磕碰破损,排针是否发生弯折,重要的是看一下JP3和CN4处的跳 ...

  8. Tensorflow2学习笔记:简单灰度图分类

    Tensorflow2学习笔记:简单灰度图分类 相关介绍 实验环境 实验步骤 导入相关库 导入数据集 浏览数据 预处理数据 构建模型 设置层 编译模型 训练模型 向模型馈送数据 评估准确率 进行预测 ...

  9. NLP之Word2Vec:Word2Vec算法的简介(CBOW和Skip-Gram及其对比)、安装、使用方法之详细攻略

    NLP之Word2Vec:Word2Vec算法的简介(CBOW和Skip-Gram及其对比).安装.使用方法之详细攻略 目录 Word2Vec算法的简介 1.Word2Vec算法的概述-更好的文本表示 ...

最新文章

  1. Android多媒体框架之MediaMetadataRetriever
  2. Ansible第二篇:ansible-playbook
  3. 南邮java大作业实验报告_南京邮电大学java第三次实验报告
  4. Ubuntu 中python 升级到3 后apt-get 一直报错
  5. nginx.conf 基本配置模板和结构
  6. [基础题] * 9.(*)设计一个Student接口,以一维数组存储一个班级的学生姓名。
  7. android 拍照换头像,Android调用相机拍照,裁剪及更换头像功能的实现
  8. vue之computed和watch
  9. (计算机组成原理)第三章存储系统:本章习题
  10. JAVA-SWING:生成透明JTable
  11. 阿里云服务器之建立个人博客
  12. npm publish 报错 403
  13. 猴子偷桃(Java实现)
  14. mysql自定义函数的分号_MySQL 第八篇:自定义函数、存储过程、游标-阿里云开发者社区...
  15. 算法 - 随机密码生成算法
  16. 24只胡萝卜的管理精神(节录)
  17. oracle xe连接数,解决Oracle XE允许连接的用户数不足问题
  18. 网络上各家分享CAD图纸如何分辨好坏呢?
  19. 年纪轻轻竟脱发?头发到底该如何挽回?
  20. 《viva la vida》 歌词

热门文章

  1. 优秀的数据可视化设计
  2. tsconfig之moduleResolution详解
  3. android 8省电,智能手机怎么省电?Android手机省电攻略
  4. html源码解析函数,源码解读
  5. css3 文字 特效_惊人CSS3文字效果
  6. [Java Path Finder][JPF学习笔记][8]几篇使用JPF的论文
  7. 快速说唱教学第五期:三分钟教你如何改善自己的音色?
  8. tableau电商数据看版的制作
  9. 嘉为科技荣登 “2021年福布斯中国企业科技50强”
  10. 红外弱小目标检测之“Infrared Patch-Image Model for Small Target Detection in a Single Image”阅读笔记