英文论文标题:Semantic Analysis of TourismVocabulary Based on Similar Words Calculation

论文中译标题:基于相似词计算的旅游词汇语义分析

来源:2019 International Conference onComputer Science, Communications and Big Data(CSCBD 2019)

作者:Hui PENG,Hong-yanPAN

编译:郑欣怡,孙静正,刘博艺,数据挖掘组

摘要

旅游数据挖掘是从海量旅游数据中提取数据关系的过程。它可以发现隐藏在数据中的隐含知识和规则。旅游词之间语义关系的发现是旅游数据挖掘的重要内容。介绍了自然语言处理领域中经典的相似词计算模型skip-gram。skip-gram语法中不考虑词性,因此当相似词位于句子中时,模型无法准确识别它们。因此,我们提出了POS-skip-gram模型。利用该模型,结合艺龙和携程的旅游数据,建立了旅游词的语义关系图。这个图可以作为旅游数据挖掘的基础。

核心内容

该研究为了挖掘应用领域中词之间的语义关系用到了相似词的计算,用到的方法是通过计算每个单词与其他单词的共现次数来计算单词之间的相似度。随着统计语料库的丰富,这种方法可以获得越来越好的结果,特别适合于网络词汇的扩展需求和词间统计结果在特定领域的应用。在统计方法的基础上,将词转换成一个向量,然后利用两个向量之间的相似度来判断两个词是否是同义词。

介绍了自然语言处理领域中经典的相似词计算模型skip-gram:

skip-gram是Word2Vec模型的一种。Word2vec是一类神经网络模型,通过学习文本来用词向量的方式表征词的语义信息,即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。

从直观角度上来理解Word2Vec模型,cat这个单词和kitten属于语义上很相近的词,而dog和kitten则不是那么相近,iphone这个单词和kitten的语义就差的更远了。通过对词汇表中单词进行这种数值表示方式的学习(也就是将单词转换为词向量),能够让我们基于这样的数值进行向量化的操作从而得到一些有趣的结论。比如说,如果我们对词向量kitten、cat以及dog执行这样的操作:kitten - cat + dog,那么最终得到的嵌入向量将与puppy这个词向量十分相近。

Word2Vec模型中,主要有Skip-gram和CBOW两种模型,从直观上理解,Skip-Gram是给定input word来预测上下文。而CBOW是给定上下文,来预测input word。

skip-gram模型是基于当前单词预测单词n的上下文。N是决定上下文窗口大小的常数。该模型分为三层:输入层、投影层和输出层,其中输入层为当前单词,投影层生成单词向量空间,输出层为当前单词的上下文词汇。为了进一步提高相似词的计算精度,给出了含有语法信息POS-skip-gram模型的结构。模型调整为输入层、过滤层、词性标注层、投影层和输出层。

其中,过滤层过滤掉网络语言中使用的符号,使输入更加标准化。词性标注层利用词性标注集对词性进行标注。词性标记集将词分为两类:内容词和虚词。其中,内容词包括名词、动词、形容词、副词、成语等词语。虚词包括介词、连词、感叹词、冠词、数词和量词。名词还包括人名、地名、类名、专有名词等。解决了由于skip-gram语法中不考虑词性,当相似词位于句子中时,模型无法准确识别的问题。

Abstract

Tourism data mining is the process of abstracting data relations from a huge number of tourism data. It can discover the implicit knowledge and rules which hidden in data. The discovery of the semantic relation between tourism words is the important content in tourism data mining. The classical similar words calculation model skip-gram in natural language processing area is introduced in the paper. The part of speech is not considered in skip-gram so when the similar words located closely in a sentence the model cannot identify them accurately. So we provide the model of skip-gram with Chinese Part of Speech—POS-skip-gram. With the help of this model and the tourism data from elong and ctrip website, we have established the semantic relations map of tourism words. The map can be the basis of tourism data mining.

python英文语义角色标注_【顶会100秒】基于相似词计算的旅游词汇语义分析相关推荐

  1. python英文语义角色标注_八款中文词性标注工具使用及在线测试

    结束了中文分词工具的安装.使用及在线测试,开启中文词性标注在线测试之旅,一般来说,中文分词工具大多数都附带词性标注功能的,这里测试了之前在AINLP公众号上线的8款中文分词模块或者工具,发现它们都是支 ...

  2. 语义角色标注 Semantic Role Labeling(SRL) 初探(整理英文tutorial)

    语义角色标注 本文链接 最近调研了一下语义角色标注,记录如下 将语言信息结构化,方便计算机理解句子中蕴含的语义信息. 语义角色标注 (Semantic Role Labeling, SRL) 是一种浅 ...

  3. 自然语言处理(NLP)之pyltp的介绍与使用(中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注)

    pyltp的简介   语言技术平台(LTP)经过哈工大社会计算与信息检索研究中心 11 年的持续研发和推广, 是国内外最具影响力的中文处理基础平台.它提供的功能包括中文分词.词性标注.命名实体识别.依 ...

  4. 基于飞桨PaddlePaddle的语义角色标注任务全解析

    https://www.toutiao.com/a6706071441667785219/ 2019-06-24 20:22:10 自然语言处理中的自然语言句子级分析技术,可以大致分为词法分析.句法分 ...

  5. 人工智能 - paddlepaddle飞桨 - 深度学习基础教程 - 语义角色标注

    语义角色标注 本教程源代码目录在book/label_semantic_roles,初次使用请您参考Book文档使用说明. 说明¶ 本教程可支持在 CPU/GPU 环境下运行 Docker镜像支持的C ...

  6. 自然语言处理基础技术之语义角色标注

    今天是总结nlp基础技术的最后一篇,后面开始工具实战篇,我觉得实践对新手小白入门是相当有帮助的~~ #语义角色标注定义: 维基百科定义:Semantic role labeling, sometime ...

  7. 生成句法分析树以及从一个小例子来看词义消歧及语义角色标注

    一.生成句法分析树 把一句话按照句法逻辑组织成一棵树,由人来做这件事是可行的,但是由机器来实现是不可思议的,然而算法世界就是这么神奇,把一个十分复杂的过程抽象成仅仅几步操作,甚至不足10行代码,就能让 ...

  8. 什么是语义角色标注?

    01 定义 先来看看语义角色标注在维基百科上的定义:Semantic role labeling, sometimes also called shallow semantic parsing, is ...

  9. 语义角色标注视为依存句法分析任务:探索论元内部的隐式树结构

    ©作者 | 张宇 单位 | 苏州大学博士生 研究方向 | 句法分析/语义分析 语义角色标注(SRL)是 NLP 中一个基础且重要的任务,主要涉及谓词和论元的识别,以及相应的角色标签标注等等. 最近主流 ...

最新文章

  1. 每个程序员都必须知道的 8 种数据结构
  2. 这几道Redis面试题都不懂,怎么拿offer?
  3. uva 12426 Counting Triangles 计算几何
  4. Matlab--三维散点插值成曲面
  5. 如何将一个JavaScript数组打乱顺序?
  6. javascript事件代理(Event Delegation)
  7. Android View Scroller
  8. SSM框架整合总结—案例
  9. photoshop中魔棒工具的使用
  10. LSB算法BMP图片信息隐藏技术 c语言
  11. 搞学术不完全指北【包括谷歌学术镜像、论文工具、Wiki、SCI-HUB文献下载、翻译等】
  12. 金蝶K3案例实验实际成本前台操作
  13. Warning: Accessing non-existent property ‘cd‘ of module exports inside circular dependency
  14. 人群行为分析算法调研
  15. 【校企合作】湖南工业大学计算机学院与牛耳教育签约共建实训基地
  16. EXCEL设置自动隔行填充颜色
  17. DFC Session Management Srinivas Jakkula
  18. 一篇读懂:Android/iOS手机如何通过音频接口(耳机孔)与外设通信
  19. 《深度强化学习实践》学习内容整理
  20. sourceinsight tab 空格 对齐 等宽字体

热门文章

  1. SAP Spartacus的开发人员来自全球各地
  2. SAP Spartacus cx-page-layout 属性运行时的赋值原理, set 是如何被框架调用的?
  3. 使用纯粹的ABAP位操作实现两个整数相加
  4. 使用JavaScript的FormData向SAP ABAP系统发起登录请求
  5. cus.crm.myaccounts.util.Util.isIntentSupported
  6. 使用ABAP绘制可伸缩矢量图
  7. when busy dialog closed iDuration renderFioriFlower jQuery Animation closeL
  8. 观察者模式在SAP ui5修改theme实现中的应用
  9. 阿里云的很多域名没有办法进行实名认证了吗
  10. SAP APF框架错误消息Filter is too complex的处理