1. 词向量技术

词向量(word2vec)是一种表示自然语言中单词的方法,即把每个词都表示为一个N维空间内的点,即一个高维空间内的向量,通过这种方法,把自然语言计算转换为向量计算。词向量的基本内容包括:

  • 问题引入
  • 基于统计方法的词向量
  • 基于语言模型的词向量

2 问题引入

2.1 向量空间分布的相似性

  • 在计算机中表示词语时,当词语转换为向量之后,应保持词语之间在空间中具有相似性。

2.2 向量空间子结构和目标

  • 词语的向量不仅能表示空间分布,还应保证空间子结构一直。
  • 词向量的最终目标是:词向量的表示可以作为机器学习、深度学习的输入和空间表示。

2.3 实现词向量的挑战

  • 挑战一:如何把词转换为向量?自然语言单词是离散信号,比如“香蕉”、“橘子”、“水果”在我们看来就是3个离散的词。我们应该如何把离散的单词转换为一个向量。
  • 挑战二:如何让向量具有语义信息?我们知道,“香蕉”和“橘子”更加相似,而“香蕉”和“句子”就没有那么相似,同时,“香蕉”和“食物”,“水果”的相似程度,可能介于“橘子”和“句子”之间。那么,我们该如何让词向量具备这样的语义信息?

3 基于统计方法的词向量

3.1 OneHotEncoder

  • 独热码,在英文文献中称做ont-hot code,直观来说就是有多少个状态就有多少比特,而且只有一个比特为1,其他全为0的一种码制。

3.2 词袋模型

  • 词袋模型(Bag of Words,简称BoW),即将所有词语装进一个袋子里,不考虑其词法和语序的问题,即每个词语都是独立的,把每一个单词都进行统计,同时计算每个单词出现的次数。
  • 词袋模型的三部曲:分词(tokenizing),统计修订词特征值(counting)与标准化(normalizing)。
  • 文档的向量表示可以直接将各词的词向量表示加和。

4 基于语言模型的词向量

4.1 语言模型的概念

  • N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。
  • 每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度

4.2 文本离散表示的缺点

  • 词向量的表示太稀疏,很难捕捉文本的含义
  • n-gram词序列随语料库膨胀太快
  • 各种距离度量都无法满足语义的内容

自然语言处理之词向量技术(二)相关推荐

  1. 干货分享 | 自然语言处理及词向量模型介绍(附PPT)

    云脑科技机器学习训练营第二期,对自然语言处理及词向量模型进行了详细介绍,量子位作为合作媒体为大家带来本期干货分享~ 本期讲师简介 樊向军 云脑科技核心算法工程师,清华大学学士,日本东京大学与美国华盛顿 ...

  2. 十五、中文词向量训练二

    中文词向量训练二 1. Gensim工具训练中文词向量 1.1 中文词向量过程 源程序:train_word2vec_model.py 执行方法:在命令行终端执行下列代码. python train_ ...

  3. 机器学习之路: python 实践 word2vec 词向量技术

    git: https://github.com/linyi0604/MachineLearning 词向量技术 Word2Vec 每个连续词汇片段都会对后面有一定制约 称为上下文context找到句子 ...

  4. 自然语言处理之词向量模型(三)

    1. 词向量模型 1.1 实现词向量的挑战 挑战一:如何把词转换为向量?自然语言单词是离散信号,比如"香蕉"."橘子"."水果"在我们看来就 ...

  5. NLP专题直播 | 详谈词向量技术:从Word2Vec, BERT到XLNet

    现在是国家的非常时期,由于疫情各地陆续延迟复工,以及各大院校延期开学.作为一家AI教育领域的创业公司,我们希望在这个非常时期做点有价值的事情,并携手共渡难关.在疫情期间,我们决定联合国内外顶尖AI专家 ...

  6. 自然语言处理5 -- 词向量

    文章目录 1 概述 2 词向量工具 2.1 模型训练 2.2 增量训练 2.3 求词语相似度 2.4 求与词语相近的多个词语 3 词向量训练算法 4 词向量训练代码实现 5 总结 转载来源:https ...

  7. lda 可以处理中文_自然语言处理——使用词向量(腾讯词向量)

    向量化是使用一套统一的标准打分,比如填写表格:年龄.性别.性格.学历.经验.资产列表,并逐项打分,分数范围[-1,1],用一套分值代表一个人,就叫作向量化,虽然不能代表全部,但至少是个量度.因此,可以 ...

  8. 词向量技术原理及应用详解(四)——词向量训练

    前文理论介绍完毕,接下来进入实战环节.实践中向量化应用的场景常有不同,但向量文本化的训练和使用方式大同小异.在这里我将采用两种方法:gensim库以及tensorflow来完成词向量实战训练. 一.w ...

  9. 自然语言处理——使用词向量(腾讯词向量)

    向量化是使用一套统一的标准打分,比如填写表格:年龄.性别.性格.学历.经验.资产列表,并逐项打分,分数范围[-1,1],用一套分值代表一个人,就叫作向量化,虽然不能代表全部,但至少是个量度.因此,可以 ...

最新文章

  1. 肯尼亚政府部署RFID系统进行车辆识别登记
  2. MySQL基于SSL协议的主从复制
  3. JPA在MySQL中自动建表
  4. mysql重命名数据表称方式_在MySQL中,使用()重命名数据表。_学小易找答案
  5. cad中等线体_如何撰写人们会实际阅读的中等故事
  6. 华为鸿蒙系统腾讯,腾讯内容开放平台
  7. 钢铁雄心II(HOI2)作弊码合辑
  8. 加入收藏与设为首页代码(兼容各种浏览器)
  9. 初级官方卡刷包精简 添加万能ROOT
  10. NLP+VS︱深度学习数据集标注工具、图像语料数据库、实验室搜索ing...
  11. oracle写求余函数,Oracle取余函数mod
  12. WIFI后台数据一文解释通
  13. 基于有赞微小店+有赞云实现的个人微信和支付宝扫码在线支付收款
  14. Oracle 删除归档
  15. Ardunio开发实例-TEMT6000环境光传感器
  16. 光纤加速度传感器对高速列车受电弓监测
  17. 音视频大合集,先从零开始万事开头难
  18. 手写一个抖音视频去水印工具,千万别刚一个程序员
  19. 云产研见客户的行为分析
  20. 基于浮云绘图 快速开发车站状态图

热门文章

  1. Mysql 常用函数(19)- mod 函数
  2. SpringBoot内置tomcat出现error:An incompatible version [1.1.32] of the APR based Apache Tomcat Native lib
  3. IDEA生成toString方法的快捷键
  4. PHP扩展高性能日志系统SeasLog简单上手
  5. IntelliJ IDEA 如何创建一个普通的java项目,及创建java文件并运行
  6. 火爆背后的挑战:直播平台的高并发架构设计
  7. PHP 数据库连接池实现
  8. php调用C代码的方法详解和zend_parse_parameters函数详解
  9. java设计模式通俗_通俗易懂的Java设计模式之工厂方法模式
  10. JSON 是什么?它能带来什么?它和 XML 比较?