• 文章摘要

    • 问题切入点

      • Word2Vec的相关研究

        • 文章的改进研究

摘要后的摘要

该文从训练词向量的语言模型入手,研究了经典skip-gram、CBOW语言模型训练出的词向量的优缺点,引入TFIDF文本关键词计算法,提出了一种基于关键词改进的语言模型。研究发现,经典skip-gram、CBOW语言模型只考虑到词本身与其上下文的联系,而改进的语言模型通过文本关键词建立了词本身与整个文本之间的联系,在词向量训练结果的查准率和相似度方面,改进模型训练出的词向量较skip-gram、CBOW语言模型有一个小幅度的提升。

问题切入点:

举一个简单的例子“我喜欢喝咖啡”“我讨厌喝咖啡”,“喜欢”“讨厌”两个语义相反的词,训练出的词向量结果是相近的。skip-gram和CBOW语言模型训练出的词向量可以充分表达词的词性、词类,但是在词义表达上有些欠缺。因此有必要从语言模型的角度考虑提升词向量质量。

Word2Vec的相关研究:

Mikolov等,使用Word2Vec训练出的词向量进行词向量之间的距离计算可以很好地发现语料中语义相近的词汇,例如,与奥迪相近的词汇有奔驰、宝马、大众等汽车品牌;并且根据语义的线性偏移较好地预测了相关词,例如,中国的词向量+(美国的词向量-华盛顿的词向量)=北京的词向量。

1.语言模型

语言模型是自然语言处理领域重要且基础的课题。在传统的语言模型中,基于统计的语言模型应用较为广泛,其核心是利用概率统计的思想进行语言建模[14]。常用的统计语言模型有: 隐马尔可夫模型、条件随机场模型及决策树模型等。

文章中介绍的神经网络语言模型:把每一个词表示为一个向量,向量的每一个维度蕴含了词本身的含义和词与其他词之间的联系。神经网络语言模型中的词向量与统计语言模型中广泛应用的One-Hot Representation有着本质的差异。One-Hot Representation中的词向量长度为词典的大小,向量元素只有一个1,其余全为0,且词向量之间相互独立,而神经网络语言模型中词向量长度可以根据需要来选择不同长度,且词与词之间的关系隐藏于词向量的各个维度之中。2013年谷歌开源实现了利用神经概率语言模型训练词向量Word2Vec。Word2Vec实现了利用skip-gram和CBOW两种语言模型训练词向量。这两种语言模型本质上是考虑了中间词与上下文的关系,使用单层神经网络利用中间词预测其上下文或者利用中间词的上下文预测中间词,最后得到分布式词向量。整个词向量包含了词本身的含义以及词与其他词之间的联系。Word2Vec在大规模语料的条件下训练效果良好,可以根据向量空间的余弦距离进行相似度计算,寻找相似度较高的一组词。

1.2 CBOW模型

CBOW模型[16]是根据中间词上下文预测中间词的模型。使用CBOW模型训练词向量的神经网络结构如下: ①输入层,上下文词向量context(w); ②投影层,将输入层的2c个context(w)词向量相加; ③输出层,输出中间词向量,其结构如图1所示。

1.3 skip-gram模型
skip-gram模型[16]根据中间词w预测其上下文context(w),因此所求的概率转化为p(context(w)|w)。使用skip-gram语言模型训练词向量的神经网络结构如下: ①输入层为中间词向量w; ②投影层,直接投影到输出层; ③输出层为中间词上下文词向量,其结构如图2所示。

谷歌开源的Word2Vec是当前最为重要的词向量训练工具,提供了skip-gram和CBOW两种语言模型的词向量训练。词向量的质量对于提升基于词向量的一系列工作具有很重要的意义。然而,经典模型通过窗口建立中间词与上下文之间的联系,窗口越大词间联系越丰富,训练的词向量质量越好,然而窗口越大意味着训练时间越长。经典模型的假设是如果两个词的上下文相同,则这两个词是相似的,然而对于如“喜欢”“讨厌”这样的用法几乎一致、语境几乎一致的语义相反词,经典模型会将其判断为相似词。经典模型更多考虑的是如果两个词用法、语境一致,则这两个词是相似的。这虽然在很多词相似性的判断上有很好的效果,但遇到反义词、数量词时效果不佳。

2.基于文本关键词改进的语言模型

2.1 TFIDF权重计算法

TFIDF是目前被广泛使用的权重评价函数,这种加权策略的直观解释为: 若文本中的某个词在本文中出现的频率越高,其贡献越大;但若这个词在整个文本集中出现的频率都很高,则其贡献将被减少。TFIDF权重计算如下所示。

wij=TFij×IDFj=TFij×log(N/nj)

其中,TFij(term frequency)表示词tj在文档di中出现的频数;IDFj(inverse document frequency)表示出现词tj的反比文档频数;N表示总文档数,nj表示出现词tj的文档数。本文使用TFIDF权重计算法计算文本中每个词的TFIDF值,取TFIDF值最大的几个词作为文本关键词。

2.2 基于文本关键词改进的CBOW模型

经典的CBOW模型的思想是: 具有相同上下文的词是相近的,使用中间词的上下文预测中间词。改进的CBOW模型,把TFIDF值最高的几个词作为文本关键词和中间词的上下文一起预测中间词,其结构如图所示。在相对较少的训练时间代价下,增强中间词与整个文本之间的联系,在一定程度上增加了中间词预测的合理性,更加丰富了词向量对词间关系以及词本身含义的表达。

以文本“欧几里得西元前三世纪古希腊数学家,现在被认为是几何之父”为例,取中间词“三世纪”。则改进模型建立的词间联系为: 使用文本关键词“欧几里得”“几何”乘以各自TFIDF值和中间词上下文“欧几里得”“西元前”“古希腊”“数学家”一起预测中间词“三世纪”,整个词间联系如下图所示。

2.3 基于文本关键词改进的skip-gram模型

经典的skip-gram模型建立了中间词与其上下文的联系,由中间词预测中间词上下文。中间词上下文的大小由窗口c决定,可以通过控制窗口c的大小使得中间词与整个文本建立联系,但这样会极大地增加训练时间。基于文本关键词改进的skip-gram模型建立了中间词与其上下文以及文本关键词的联系,由中间词预测中间词上下文以及文本关键词,如图所示。在增加较少的训练时间代价下,把skip-gram模型建立的局部词间联系扩大到中间词与整个文本的联系。


同样以文本“欧几里得西元前三世纪古希腊数学家,现在被认为是几何之父”为例,取中间词“三世纪”。改进模型建立的词间联系为: 使用中间词“三世纪”分别预测中间词上下文“欧几里得”“西元前”“古希腊”“数学家”和文本关键词“欧几里得”“几何”。

论文出处:GB/T 7714
张克君, 史泰猛, 李伟男等. 基于统计语言模型改进的Word2Vec优化策略研究[J]. 中文信息学报, 2019, 第33卷(7):11-19.

读论文—基于统计模型改进Word2vec优化策略研究相关推荐

  1. 读论文-基于循环gan特征增强的夜间车辆检测 Feature Enhancement Based on CycleGAN forNighttime Vehicle Detection

    摘要 现有的夜间车辆检测方法主要是通过检测前灯或尾灯来检测车辆.然而,复杂的道路照明环境对这些特性产生了不利的影响.本文提出了一种具有特征转换增强(feature translate enhancem ...

  2. 读论文-----基于单通道表面肌电信号的手势识别 Hand Gestures Recognition Based on One-Channel Surface EMG Signal

    Hand Gestures Recognition Based on One-Channel Surface EMG Signal 摘要 本文提出了一个利用OpenBCI采集两种手势信号的数据并解码信 ...

  3. 读论文|基于大平面物体垂直姿态的双向人机双手交接

    简介 翻译标题:基于大平面物体垂直姿态的双向人机双手交接 翻译摘要: Abstract-Object handover is one of the basic abilities for the ro ...

  4. 【点云论文速读】基于优化的视觉惯导里程计与GPS的紧耦合的融合方案

    转载自:https://mp.weixin.qq.com/s/Y-h7eto1Zc_Mkzlh653vpg [点云论文速读]基于优化的视觉惯导里程计与GPS的紧耦合的融合方案 原创 dianyunPC ...

  5. 【论文速读】基于图像的伪激光雷达三维目标检测

    点云PCL免费知识星球,点云论文速读. 标题:End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection 作者:Rui Qian, Divy ...

  6. 基于DEAP的脑电情绪识别论文源码改进版本(附论文代码,lstm和rnn)

    论文及改进版源码链接: (论文加源码)基于DEAP的脑电情绪识别论文源码改进版本(附论文代码,lstm和rnn) https://download.csdn.net/download/qq_45874 ...

  7. 创新杯论文——面向中文专利信息的关系数据库检索优化策略研究及应用

    面向中文专利信息的关系数据库检索优化策略研究及应用 目 录 1     引言... 3 2     中文专利信息检索优化概述... 4 2.1      中文信息检索的概念... 4 2.2      ...

  8. 论文翻译解读:Distributed Representations of Words and Phrases and their Compositionality【Word2Vec优化】

    文章目录 Distributed Representations of Words and Phrases and their Compositionality 简要信息 重点内容概括 摘要 1 介绍 ...

  9. 【论文速读】基于投影方法的激光雷达点云处理比较

    点云PCL免费知识星球,点云论文速读. 文章:LiDAR point-cloud processing based on projection methods: a comparison 作者:Gui ...

最新文章

  1. 用Python实现-----按要求修改文件名
  2. oracle插入回车换行符
  3. 典型微型计算机控制系统的实例,微型计算机控制系统概述.ppt
  4. python语音播放文本_python将文本转化成语音并播放
  5. 详述一次大量删除导致MySQL慢查的分析
  6. php html小项目,使用PHP把HTML生成PDF文件的几个开源项目介绍
  7. Ubuntu 学习系列-安装Flash播放器
  8. 阿里云数据库再添新成员,企业级MariaDB正式开卖!
  9. mysql删除源码_mysql关于删除的命令实例源码删除数据库数据表等
  10. 网页设计html5实训心得,网页设计实习心得
  11. 小手的图标css,CSS中cursor属性给标签加上小手形状
  12. 在excel中如何筛选重复数据_EXCEL里如何快速统计重复的次数?
  13. 清明:直面骄阳、向死而生
  14. 按键精灵通过抓抓工具来获取坐标位置
  15. MySQL 自联结 自连接
  16. 通过键盘输入(Java语言)
  17. 【火炉炼AI】深度学习001-神经网络的基本单元-感知器
  18. Java 自定义按时间先后顺序排序集合
  19. SysTick系统滴答定时器
  20. h5 和 微信小程序添加emoji表情处理

热门文章

  1. Win11解决修改壁纸自动切换成纯色
  2. 宫崎骏用动漫教给我们的人生哲理,每一句都能说到心里[转]
  3. ByVal 与 ByRef(默认值) 的区别
  4. matlab对经济指标分析,财政收入预测与分析MATLAB
  5. lzma和gzip压缩命令简介
  6. 蓝天采集器winds系统页面渲染设置教程
  7. 阿里巴巴/招行信用卡中心21届实习面试知识点汇总
  8. java 自动化编译_构建Jenkins自动化编译管理环境
  9. Ubuntu下Eclipse环境中有时print screen按键失效无法截屏的问题
  10. 风投掘金可穿戴设备:大数据才是背后真金