本章节研究内容: 词向量介绍+word2vec两种架构cbow&skip-gram+google word2vec 源码分析+滑动窗口如何构建数据

词向量表示

One-Hot Representation

NLP 中最直观,也是到目前为止最常用的词表示方法是 One-hot Representation,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1,这个维度就代表了当前的词。

举个栗子,

“话筒”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …]

“麦克”表示为 [0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 …]

每个词都是茫茫 0 海中的一个 1。
这种 One-hot Representation 如果采用稀疏方式存储,会是非常的简洁:也就是给每个词分配一个数字 ID。比如刚才的例子中,话筒记为 3,麦克记为 8(假设从 0 开始记)。

问题:无法获取词与词之间的相似度;维数多个,稀疏严重

Distributed Represetation

Deep Learning 中一般用到的词向量是用 Distributed Representation表示的一种低维实数向量。例如: [0.792, −0.177, −0.107, 0.109, −0.542, …]。维度以 50 维和 100 维比较常见

通过训练将每个词映射K维的向量&#x

自然语言处理(NLP):04 word2vec 入门介绍相关推荐

  1. 自然语言处理(NLP)之word2vec的实现(PTB语料库)<找语义相近的词>

    在2013年Google开源了一款用于词向量计算的工具:word2vec,它本身不是一种深度学习之类的模型,是一种用于计算词嵌入的体系结构.实际上大家平时说的这个指代的就是前面介绍过的跳字(元)模型与 ...

  2. 自然语言处理(NLP)之pyltp的介绍与使用(中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注)

    pyltp的简介   语言技术平台(LTP)经过哈工大社会计算与信息检索研究中心 11 年的持续研发和推广, 是国内外最具影响力的中文处理基础平台.它提供的功能包括中文分词.词性标注.命名实体识别.依 ...

  3. 【组队学习】【29期】9. 基于transformers的自然语言处理(NLP)入门

    9. 基于transformers的自然语言处理(NLP)入门 航路开辟者:多多.erenup.张帆.张贤.李泺秋.蔡杰.hlzhang 领航员:张红旭.袁一涵 航海士:多多.张红旭.袁一涵.童鸣 基 ...

  4. 【组队学习】【28期】基于transformers的自然语言处理(NLP)入门

    基于transformers的自然语言处理(NLP)入门 论坛版块: http://datawhale.club/c/team-learning/39-category/39 开源内容: https: ...

  5. 自然语言处理NLP快速入门

    自然语言处理NLP快速入门 https://www.cnblogs.com/DicksonJYL/p/9809760.html [导读]自然语言处理已经成为人工智能领域一个重要的分支,它研究能实现人与 ...

  6. 自然语言处理从零到入门 NLP

    自然语言处理-Natural language processing | NLP 一.NLP 为什么重要? 二.什么是自然语言处理 – NLP 三.NLP 的2大核心任务 自然语言理解 – NLU|N ...

  7. 视频教程-2020新版 自然语言处理NLP视频课程Word2Vec GloVe关系挖掘-NLP

    2020新版 自然语言处理NLP视频课程Word2Vec GloVe关系挖掘 6年开发经验,具有丰富的移动端.中台.后端.大数据.NLP.语音生成.图像识别开发经验,团队管理经验:擅长数据架构,NLP ...

  8. Interview之NLP:人工智能领域求职岗位—自然语言处理NLP算法工程师职位的简介、薪资介绍、知识结构之详细攻略

    Interview之NLP:人工智能领域求职岗位-自然语言处理NLP算法工程师职位的简介.薪资介绍.知识结构之详细攻略 目录 自然语言处理NLP算法工程师的职位简介 1.资讯指数 2.各大公司的具体职 ...

  9. 人工智能自然语言处理NLP入门教程

    导读:自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域. 语言是人类区别其他动物的本质特性.在所有生物中,只有人类才具有语言能力.人类的多种智能都与 ...

最新文章

  1. python画图程序-无所不能的python编程是怎么快速画图的呢?5分钟学会!
  2. java ssm常用注解_SSM框架中常用的注解
  3. poj 2079(旋转卡壳)
  4. 准备重新回归信息安全产业
  5. 北京市通信管理局对3·15晚会曝光的北京企业作出行政处罚
  6. 基于JAVA+SpringMVC+Mybatis+MYSQL的校园失物招领系统
  7. matlab输入excel高版本,『matlab读取excel指定列』excel中大量数据如何导入matlab当中?超过1000个数据无法一个一个输入...
  8. 格力市值3900亿,美的市值6300亿
  9. ExtJs4 基础必备
  10. Node.js mm131图片批量下载爬虫1.01 增加断点续传功能
  11. win7下装linux虚拟机,win7怎么在虚拟机安装linux系统|win7搭建linux虚拟机的方法
  12. MFC快速创建bmp图片
  13. Laraval-admin 自定义form组件
  14. [经典论文分享] Decision Transformer: Reinforcement Learning via Sequence Modeling
  15. SOEM 源码解析 ecx_FPWRw
  16. Portillo’s上市首日涨幅45.5%,资本爱上吃“热狗”?
  17. 【运筹学】(2)—预测
  18. 简单玩转ViewPager+Fragment动画效果,实现京东淘宝物流卡片效果 (附源码)
  19. 闲鱼爬虫 闲鱼爬取 批量搬运上架淘宝软件,闲鱼.上架淘宝辅助软件批量改价/改库存/改标题,批量采集店铺店铺,全店宝贝采集,批量采集店铺高销量自动加水印
  20. openwrt下wifi设置详细过程

热门文章

  1. 网络分流器-DPI深度数据包检测
  2. WinMount V2.2.2, 日期2008.02.29
  3. 先储值再消费表计DTSY1352-NK导轨式内控预付费电能表
  4. 【观察】华为:持续创新,场景聚焦,推动数据中心实现可持续发展
  5. SpringBoot+Vue服装购物商城系统
  6. RK Audio HAL 音频通路设置与Codec原理
  7. 从字符串中取出数字,并计算数字之和
  8. 微信小程序——每日卡路里
  9. IDEA的Structure功能
  10. osg中漫游器的原理(一)