本节书摘来自华章出版社《短文本数据理解(1)》一书中的第1章,第1.3节,作者王仲远,更多章节内容可以访问云栖社区“华章计算机”公众号查看

1.3 短文本理解框架

针对上述研究问题与研究现状,本书将围绕短文本理解的各项需求及挑战,重点介绍显性模型中基于概念化模型进行短文本理解中的关键性技术,如图16所示。

在语义网络层,主要是构建理解短文本所需要的额外知识源,即知识库系统或者语义网络。知识库包含概念、实体、属性和关系,当关系足够丰富时,便构成了语义网络,它在许多应用中的作用日渐突出。其中,知识库中的概念和实体关系已经有较为充分的研究,因此本书主要介绍基于概率的属性提取与推导,从而完善整个语义网络,以支持其上的模型构建。

在概念化层,本书首先介绍利用语义网络构建单实体概念化模型。提出一种基于典型性和点互信息(PMI)的基本层次概念化(Basiclevel Conceptualization,BLC)方法,将单实体映射到一组最能刻画这个实体各种特征的概念上,并附着于概率值,以支持短文本概念化。基于概念化的短文本理解的目标是把短文本(如搜索引擎中的查询关键字)所包含的实体映射到语义网络中的概念上。其中需要解决的核心问题是利用短文本中有限的上下文对词义进行消歧。利用动词、形容词、实体及其属性,首先从大量的网络语料中挖掘出它们的各种关系。再利用这些挖掘得到的知识,提出一个整体概念化模型,使用基于随机游走的迭代算法将查询中的词语概念化。

利用上述两个针对单实体以及短文本的模型,可以进一步解决基于概念化的短文本主题词与修饰词检测。在短文本理解中,主题词与修饰词的检测是一个非常重要的问题。然而在许多情况下,短文本(如搜索引擎中的查询关键字等)并不遵守语法规则。现有方法通常基于粗粒度、领域相关,以及需要大量训练数据。本书将介绍一种基于语义的短文本主题词与修饰词检测方法。此方法首先从搜索日志中获取大量实体级别的“主题词修饰词”对,然后通过概念化模型将这些实体对归纳至概念级别,最后通过这些精细且精确的带权重的概念模式来进行主题词与修饰词的检测。

此外,单实体概念化模型也能够帮助解决基于概念化的词相似度计算。计算两个词之间的相似度对很多文本分析理解相关的应用至关重要。目前,这一任务主要有两种解决方法:基于知识的方法和基于文集的方法。然而,这些方法主要应用在单词之间的语义相似度计算,无法扩展到多个单词组成的多词表达式或文本。针对此问题,本书将介绍一种基于语义网络的词相似度计算方法。该语义网络基于十亿级的网页文本创建,包含百万级的概念。本书首先阐述如何将两个词映射到概念空间,进而介绍一种概念聚类的方法以提高相似度度量的准确性。

在应用层,利用概念化层所构建的各个模型,可以有效应用在不同的任务中,如广告关键字匹配、搜索排序、查询推荐、短文本聚类、智能问答系统、Web表格理解等。本书选取搜索广告应用场景,展示了一种基于概念化的海量竞价关键字匹配技术。搜索广告是搜索引擎的主要收入来源。广告商以关键字对他们的广告竞价,而搜索引擎在竞价关键字基础上通过匹配用户查询进行相关广告推送。由于查询和竞价关键字都是短文本并且不能由标准的词袋(bagofwords)方法建模,大部分现有方法是利用用户行为数据(例如点击数据、会话数据等)去填补在匹配竞价关键字与用户查询上的语义差距。然而这种方法却不能处理没有很多用户行为数据的长尾查询。尽管它特殊罕见,长尾查询整体上却占据相当大的查询量,并且是搜索引擎收入的一个重要来源。本书将介绍一种匹配查询和竞价关键字的新方法。利用概率分类和大型同现网络,把短文本概念化成一组相关概念。为了处理大量查询和海量关键字,创建概念的语义索引:通过测量它们在概率空间的相似度,对于给定的查询选择相关的竞价关键字。

《短文本数据理解(1)》一1.3 短文本理解框架相关推荐

  1. 《 短文本数据理解》——2.5小结

    本节书摘来自华章出版社<短文本数据理解>一书中的第2章,第2.5节,作者:王仲远 编著,更多章节内容可以访问云栖社区"华章计算机"公众号查看. 2.5小结 本章提出一个 ...

  2. 《 短文本数据理解》——导读

    |前 言 当今世界,每天都有数十亿的短文本产生,比如搜索查询.广告关键字.标签.微博.问答.聊天记录等.与长文本(如文档)不同,短文本具有如下特性:首先,短文本通常不遵守语法规则:其次,短文本由于字数 ...

  3. 基于cnn的短文本分类_自然语言理解之(二)短文本多分类TextCNN实践

    本文包含:用keras实现文本分类的2种baseline结构:TextCNN.Bi-GRU+conv+pooling:网络结构可视化:采用小样本在本地(乞丐版MacBook Pro)评估baselin ...

  4. [深入理解Android卷一全文-第九章]深入理解Vold和Rild

    为什么80%的码农都做不了架构师?>>>    由于<深入理解Android 卷一>和<深入理解Android卷二>不再出版,而知识的传播不应该因为纸质媒介的 ...

  5. 如何让人大致理解RxJava思想:第一节 初步理解RxJava

    如何让人大致理解RxJava思想:第一节 初步理解RxJava 首先,我们需要明确,一个人不可能一口气吃成一个胖子,你不可能仅仅花5分钟看完我这篇文章,然后一拍桌子,大叫一声,我知道了,然后赢取白富美 ...

  6. [深入理解Android卷一全文-第十章]深入理解MediaScanner

    由于<深入理解Android 卷一>和<深入理解Android卷二>不再出版,而知识的传播不应该由于纸质媒介的问题而中断.所以我将在CSDN博客中全文转发这两本书的全部内容. ...

  7. ML之二分类预测:以岩石水雷数据集(RockMine)为例从0到1深入理解科学预测之分类问题的思路框架(特征工程详细步骤(特征分析与特征处理)+分类模型设计)

    ML之二分类预测:以岩石水雷数据集(RockMine)为例从0到1深入理解科学预测之分类问题的思路框架(特征工程详细步骤+分类模型设计) 目录 一.总体思路框架 二.特征工程详细步骤(特征分析与特征处 ...

  8. AQS理解之五—并发编程中AQS的理解

    AQS理解之五-并发编程中AQS的理解 首先看下uml类图: AbstractOwnableSynchronizer 这个类定义是提供一个创建锁的基础,设置一个排它线程,帮助控制和监控访问. 先看下A ...

  9. String内容不能改变的理解 String的值不能修改的理解

    String内容不能改变的理解 String的值不能修改的理解     java中,String类的值声明后是不能修改,有些初学者就难以理解,为什么下面程序明明是修改了String对象的内容,为什么还 ...

最新文章

  1. 【LoadRunner】OSGI性能测试实例
  2. Redis 5种数据结构
  3. WPF入门教程系列十九——ListView示例(一)
  4. java 不支持fork_为什么Java forkbomb不会导致StackOverflowError?
  5. Python自动化运维——DNS处理模块
  6. 《编译原理》课程教学大纲
  7. js获取当前页面url网址等信息
  8. Qt工作笔记-时QLabel具有点击事件(使用EventFilter)
  9. ie系列浏览器_IE浏览器换Logo,真担心你上网找不到图标
  10. 如何在Python中打印到stderr?
  11. Phoenix Tips (13) 统计收集
  12. Java 通过银行卡号获取银行名称
  13. 倒排索引、正排索引,以及ElasticSearch对倒排索引的优化方法
  14. Pytest自动化脚本中各个层级的setup和teardown的执行流程和使用方法
  15. 3t硬盘用什么软件测试显卡,【转】希捷酷鱼3TB网友试用---玩转3T硬盘,就是这么容易...
  16. 知识图谱-生物信息学-医学顶刊论文(Briefings in Bioinformatics-2021):MPG:一种有效的自我监督框架,用于学习药物分子的全局表示以进行药物发现
  17. 听TED唐.泰普史考特讲区块链(从零开始学区块链 199)
  18. 分形之koch曲线生成
  19. 扇形展开的悬浮菜单按钮CircularFloatingActionMenu
  20. vue 修复ie浏览器兼容性bug

热门文章

  1. openresty开发系列3--nginx的平滑升级
  2. ExtJs之自定义事件
  3. ATG中的定时Job处理
  4. iPhone开发入门守则:Objective-C编码规范--系列教程
  5. Hdu 1384 Intervals
  6. 查看网关物理地址命令
  7. 菜鸟网络 | 寄件业务的产品逻辑
  8. 【管理】舍KPI取OKR,Google的管理方法
  9. YunTable 0.1版正式发布!!!(转载)
  10. C++与类型转换相关的四个关键字