基本常识

在做深度学习时,各种神经网络只能处理数字,不能处理文字,所以在输入前只能将文字转换成数字输入网络。那么embedding干的事情就是把文字转换成向量,且转换后的向量尽可能保留原文字的语意信息。

1.word2index

顾名思义就是简单的把词或字转换成相应的索引。(这种方式及其不推荐)

2.onehot

将字独热编码,这样稍好于第一种方法,但是缺陷也很明显,首先如果NLP任务重词量较大那么onehot维度将会非常大,其次onehot相当于任意个词之间是独立了(这不符合逻辑,‘不喜欢’和‘讨厌’语意相近。onehot他们是完全不相关的)

3.embedding

首先随机初始化初始(N,dim)的权重,N为训练任务的词的总个数(不重复的),dim是一个词embedding后的维度。在训练nlp任务时(N,dim)的权一起训练。
也可以使用预训练的方法来训练embedding。在进行NLP任务之前,先利用CBOW的方法预训练embedding,然后在把embedding的权重应用到自自己的NLP任务。embedding训练方法可以参考那
cs224n课程

NLP中embeding干了什么事?怎么干的?相关推荐

  1. 两图说明 java 开发工具中启动类参数都是干嘛的

    开发工具中启动类参数都是干嘛的? 之前经常在开发工具中见到配置启动类参数,但从来不清楚是干啥的.实际中在搭建环境中VM options 配置信息比较常见.主要为了设置一些配置信息,比如dubbo的一些 ...

  2. 微信高级研究员解析深度学习在NLP中的发展和应用 | 公开课笔记

    作者 | 张金超(微信模式识别中心的高级研究员) 整理 | Just 出品 | 人工智能头条(公众号ID:AI_Thinker) 近年来,深度学习方法极大的推动了自然语言处理领域的发展.几乎在所有的 ...

  3. 使用RNN解决NLP中序列标注问题的通用优化思路

    /* 版权声明:可以任意转载,转载时请标明文章原始出处和作者信息 .*/ author: 张俊林 (想更系统地学习深度学习知识?请参考:深度学习枕边书) 序列标注问题应该说是自然语言处理中最常见的问题 ...

  4. 无监督学习︱GAN 在 NLP 中遇到瓶颈+稀疏编码自学习+对偶学习

    深度学习训练一个模型需要很多的人工标注的数据.例如在图象识别里面,经常我们可能需要上百万的人工标注的数据,在语音识别里面,我们可能需要成千上万小时的人工标注的数据,机器翻译更是需要数千万的双语句对做训 ...

  5. 知识分享·NLP中一些有趣的trick

    知识分享·NLP中一些有趣的trick 1.计算文本相似度 1.1 编辑距离 1.2 杰卡德系数(Jaccard 相似系数) 1.3 词频统计 1.4 余弦相似度 1.5 Word2Vec 2.LDA ...

  6. 微信高级研究员解析深度学习在 NLP 中的发展和应用

    近年来,深度学习方法极大的推动了自然语言处理领域的发展.几乎在所有的 NLP 任务上我们都能看到深度学习技术的应用,并且在很多的任务上,深度学习方法的表现大大的超过了传统方法.可以说,深度学习方法给 ...

  7. 从Word Embedding到Bert模型---NLP中预训练发展史

    本文转自张俊林老师,希望加深记忆及理解. 本文的主题是自然语言处理中的预训练过程,会大致说下NLP中的预训练技术是一步一步如何发展到Bert模型的,从中可以很自然地看到Bert的思路是如何逐渐形成的, ...

  8. NLP中文本数据扩增的几种方法【一】单词替换

    和图像数据增强不同,NLP中文本数据增强比较少见.图像的一些增强操作,如图像旋转.灰度处理等等都不会改变图像的语义,语义不变变换的存在使得增广成为计算机视觉研究中必不可少的工具.但在NLP中进行数据增 ...

  9. 今晚8点开播 | 微信高级研究员解析深度学习在NLP中的发展和应用

    近年来,深度学习方法极大的推动了自然语言处理领域的发展.几乎在所有的 NLP 任务上我们都能看到深度学习技术的应用,并且在很多的任务上,深度学习方法的表现大大的超过了传统方法.可以说,深度学习方法给 ...

  10. 公开课 | 微信高级研究员解析深度学习在NLP中的发展和应用

    近年来,深度学习方法极大的推动了自然语言处理领域的发展.几乎在所有的 NLP 任务上我们都能看到深度学习技术的应用,并且在很多的任务上,深度学习方法的表现大大的超过了传统方法.可以说,深度学习方法给 ...

最新文章

  1. jquery的文档处理(部分)
  2. leetcode算法题--有效的括号
  3. 【前端】跨浏览器事件处理程序EventUtil.js个人注释及详解
  4. java.lang.IllegalArgumentException: Can't find a no-arg constructor for class com.xiayiye.takeout.mo
  5. 循环自相关函数和谱相关密度(二)——实信号、复信号模型下的BPSK信号循环谱推导
  6. linux my.cnf基本参数,Linux中MySQL配置文件my.cnf参数说明
  7. r语言html爬虫,用R语言三行代码写爬虫
  8. 蜂巢网格生态护坡材料,我们一直在努力
  9. 实验2014051901:opencv操作摄像头
  10. 找个免费的天气预报API真难a
  11. 乔布斯当场“复活”,苹果发AirPods 3和地表最强电脑芯片,秀刘海屏Macbook Pro
  12. 大数据技术之Hive 第4章 DDL数据定义语言
  13. 13行MATLAB代码实现网络爬虫 爬取NASA画廊星图
  14. tcl多媒体面试 java_TCL面试经验
  15. 在Windows 使用Administrator账户
  16. python拆分excel文件
  17. 事物的一级效应、二三级效应
  18. 报驾校,拿驾照,学车各种不容易
  19. 51单片机C语言code定义,51单片机数组的定义方法(code与data的作用)
  20. 2021 年情人节最新的表白神器(Python 制作,源码已开放)

热门文章

  1. 阿里云服务器上传下载速度测试(Speedtest带宽测试工具)
  2. 英语写作技巧 ——“李靖“
  3. redigo批量lpush/rpush、批量zrem
  4. 环路稳定性原理与DCDC Buck环路稳定性
  5. kodi资源_Kodi——支持全平台的看片神器
  6. oracle中那个日期怎么相减_oracle 日期相减
  7. python实现全自动百词斩单词对战,躺着上分轻轻松松
  8. COGS 2075. [ZLXOI2015][异次元圣战III]ZLX的陨落
  9. 免费微信公众号专用h5在线电影票API
  10. Android数据库大批量数据插入优化