文本间的推理关系,又称为文本蕴含关系 (TextualEntailment),作为一种基本的文本间语义联系,广泛存在于自然语言文本中。

简单的来说文本蕴含关系描述的是两个文本之间的推理关系,其中一个文本作为前提(premise),另一个文本作为假设(hypothesis),如果根据前提P能够推理得出假设H,那么就说P蕴含H。这跟一阶逻辑中的蕴含关系是类似的。

如果能从前提句(premise)能推出假设句(hypothesis)或者这两句话非常相似说的是同一个意思,那么就是蕴含关系(entailment),否则就是矛盾关系(contradiction),如果看不出就是中立的(neutral)。

问答系统、阅读理解、信息检索和信息抽取等领域均有应用。

这个例子中前提P是“A dog jumping for a Frisbee in the snow”,意思“一只狗在雪地中接飞盘玩”。
假设1:“一个动物正在寒冷室外玩塑料玩具”,蕴含关系(entailment),这是能够从前提推理出来的;
假设2:“一只猫用它的前爪洗脸和胡须”,这跟前提是冲突的(contradiction);
假设3:“一只宠物正在和主人玩游戏”,与前提既不是蕴含关系也没有冲突,把它定义成中立的(neutral)。
文本蕴含识别(Recognizing Textual Entailment,RTE)主要目标是对前提和假设进行判断,判断其是否具有蕴含关系。文本蕴含识别形式上是一个文本分类的问题,在上面这个例子中是一个三分类的问题,label分别为entailment,contradiction,neutral。

基于相似度的方法
构成蕴含关系的两个文本往往比较相似,可以通过计算前提和假设之间的相似度来判断其之间是否构成蕴含关系。
这种基于相似度的方法简单易实现,但这种方法强行假设“相似及蕴含”是有明显缺陷的,这会导致有大量的文本蕴含关系识别错误。
PASCAL-2005的RTE数据集上accuracy为0.55。
基于文本对齐的方法
这类方法不直接使用相似度判别蕴含关系,这类方法先把前提和假设相似的部分进行对齐,通过对齐的方式和程度作为最后判别是否为蕴含关系的依据。这种方式优点就是能够更好体现两个文本之间的相似度。对齐方法缺点在于需要引入先验知识进行对齐,并且存在一些一对多、多对多的对齐情况难以操作。
基于逻辑演算
基于逻辑演算的方法一般是将文本表示成数学逻辑表达式,比如一阶逻辑,构成事实集合,然后用逻辑推理规则判断是否能根据前提推理出假设。
基于逻辑演算的方法把数学界机器证明领域成熟的思想迁移到文本蕴含识别领域,具有一定的理论基础,但文本到逻辑表达式的转换不够鲁棒,容错性较差。而背景知识缺失往往导致推理链条的中断,导致结果召回率偏低。
基于文本转换
这类方法采用了类似的“演算”思想,却抛弃了严格的数学逻辑表达式,转而利用语言分析技术,例如句法分析,语义角色标注,把前提和假设都表示成某种语言表示形式,如句法树、依存图等。然后利用背景知识设计推理规则将前提和假设进行改写,将其转换成对方的类似的形式,然后再通过子图相似性判别出其蕴含关系。
基于转换的方法保留了基于逻辑演算的内核,同时不再要求把前提和假设表示成逻辑表达式,避免了引入噪音,但是该方法严重依赖转换规则。这些转换规则有的来自于知识库有的来自于语料。
基于混合模型
针对前面所介绍的各类文本蕴含识别方法的优势与不足,有学者提出了基于混合模型的方法.该类方法把诸如前提和假设的词级别相似度(如单词重叠率、同义词、反义词等)、句法树相似度、句法树编辑距离、对齐程度、由T转换为H的代价等等混合在一起作为特征,送入分类器(如支持向量机等)进行分类的方法。
基于深度学习的模型
CNN+attention、句法依存树+CNN,在SNLI数据集上的准确率为0.824。
LSTM+attention,在SNLI数据集上的准确率为0.832。
match-LSTM,该方法在SNLI数据集上的准确率为0.861


中文文本蕴含数据集严重匮乏目前,关于文本蕴含的研究主要还是集中在英文,如评测中常常使用的SNLI数据集与MultiNIL:
The Stanford Natural Language Inference (SNLI) 是斯坦福大学NLP组发布的文本蕴含识别的数据集。SNLI由人工标注的,一共包含570K个文本对,其中训练集550K,验证集10K,测试集10K,一共包含三类entailment,contradiction,neutra。在该数据集上,准确率已经达到将近90%。
The Multi-Genre Natural Language Inference (MultiNLI)是一个众包数据集,包含433k个文本对。

中文中,还没有出现大规模的文本蕴含数据集, CCL2018有一个文本蕴含的评测,由北京语言大学于东老师团队组织的,发布了一个数量级为10W的评测集,这是目前最大的一个文本蕴含数据集,与英文还有很大的差距。

未知名中文项目:
针对中文文本蕴含数据集数量不足的问题,提出了一个中文文本蕴含数据集,规模达到88W。
借助翻译方法进行英文中文转换,前提是英文句子较为短小。
本项目实现了一个以LSTM进行文本蕴含三分类的模型,准确率不是很高,只有0.54左右,后期还有很大的优化空间。

识别文本中有错误的片段,进行错误提示并给出正确的建议文本内容。文本纠错支持短文本、长文本、语音识别结果等多种文本内容,在搜索引擎、人机对话、语音识别、内容审核等方面有广泛的应用,能显著提高这些场景下的语义准确性和用户体验。

谐音字词纠错,如 配副眼睛-配副眼镜
混淆音字词纠错,如 流浪织女-牛郎织女
字词顺序颠倒纠错,如 伍迪艾伦-艾伦伍迪
字词补全,如 爱有天意-假如爱有天意
形似字纠错,如 高梁-高粱
中文拼音推导,如 xingfu-幸福
中文拼音缩写推导,如 sz-深圳
语法错误,如 想象难以-难以想象



文章标签服务对文章的标题和内容进行深度分析,输出能够反映文章关键信息的主题、话题、实体等多维度标签以及对应的置信度,该技术在个性化推荐、文章聚合、内容检索等场景具有广泛的应用价值。


自动分析评论关注点和评论观点,并输出评论观点标签及评论观点极性。


腾讯意图成分依托腾讯强大的机器学习能力和文本挖掘引擎,在腾讯千亿级社交语料的支撑下,不断完善算法模型,以基础NLP能力为支撑,准确理解用户在文本中表达的真实需求和目的。

意图识别的方法

因为意图识别本身也是一个分类问题,其实方法和分类模型的方法大同小异。常用的有:
1:基于词典模板的规则分类
2:基于过往日志匹配(适用于搜索引擎)
3:基于分类模型进行意图识别
这三种方式基本上是目前比较主流的方法,现在进行意图识别的难点主要是几点:
1.数据来源的匮乏;
2.分类类别扩展困难;
3.输入不规范;
4.多意图;
5. 时效性。

NLP基础知识(三)-AI应用篇相关推荐

  1. 电脑基础知识精选(硬件篇)

    电脑基础知识精选(硬件篇) 电脑基础知识 一.处理器 CPU 二.内存 RAM 三 .硬盘 Disk 四.显卡 GPU 五.主板 Motherboard 六.电源和显示器 七.选配电脑常见问答 八.如 ...

  2. 音视频开发入门基础知识(视频入门篇)

    RTSP实时音视频开发实战课程:<RTSP实时音视频开发实战> 音视频开发入门基础知识(音频入门篇) 目录 一.前言 二.视频采集和显示 三.视频常见的格式 四.RGB转YUV和YUV转R ...

  3. (六)JS基础知识三(走进作用域和闭包)【三座大山之二,不会闭包,基本不会通过】

    JS基础知识三(作用域和闭包) 提问 作用域 自由变量 闭包 this 提问 this的不同应用场景,如何取值 手写bind函数 实际开发中闭包的应用场景,举例说明 创建10个a标签,点击的时候弹出对 ...

  4. c# 找出目录下的所有子目录_C# 基础知识系列- 14 IO篇 文件的操作(2)

    前接上一篇内容. 如果是第一次捧场的小伙伴,为了您阅读的连贯性,烦请扫一眼<C# 基础知识系列- 14 IO篇 文件的操作(1)>.本篇是IO之文件操作的第二篇,介绍一下目录和路径的相关类 ...

  5. CSS基础知识---三种选择器

    CSS基础知识---三种选择器 选择器 标签选择器 id选择器 class选择器 全部代码 选择器 标签选择器 id选择器 class选择器 标签选择器 选择器优先级:id>class>标 ...

  6. 音视频开发入门基础知识(音频入门篇)

    RTSP实时音视频开发实战课程:<RTSP实时音视频开发实战> 音视频开发入门基础知识(音频入门篇) 目录 前言 音频的采集和播放 音频常见的格式 音频的编码 前言 在音视频开发入门基础知 ...

  7. 【NLP】有三AI NLP知识星球来了,仅此一家别无分店

    各位粉丝朋友们,有三AI NLP知识星球新鲜出炉了,这一周开始试运营找节奏. 也许有的朋友会问,既然有了公众号,为什么还要知识星球呢?下面就介绍一下建立知识星球的必要性和优势在哪里? 必要性 常常会有 ...

  8. NLP基础知识(语法语义、LDA、N-gram、词嵌入)

    文章目录 本节课大纲 Hyper-simplified linguistics Term spotting + handling negation, uncertainty ML to expand ...

  9. Java基础知识回顾之七 ----- 总结篇

    前言 在之前Java基础知识回顾中,我们回顾了基础数据类型.修饰符和String.三大特性.集合.多线程和IO.本篇文章则对之前学过的知识进行总结.除了简单的复习之外,还会增加一些相应的理解. 基础数 ...

  10. 三校生计算机word基础知识,三校生计算机第一次月考计算机基础、word.doc

    三校生计算机第一次月考计算机基础.word 云南省高等职业技术教育招生考试试题 计算机基础.word基础知识(9月考试卷) 姓名:_ __ ____ 得分:____ ___ 一.单项选择题(在每小题给 ...

最新文章

  1. 开源交互式自动标注工具EISeg
  2. java线程挂起唤醒_JAVA并发(10)—interrupt唤醒挂起线程
  3. 【Tika基础教程之一】Tika基础教程
  4. Android学习–Android app 语言切换功能
  5. python正则表达式初识(七)_Python正则表达式初识(二)
  6. [FY20 创新人才班 ASE] 第 1 次作业成绩
  7. 【转】oracle数据库NUMBER数据类型
  8. vSphere 故障排错思路总结
  9. MyBatis的ResultMaps
  10. 黑客炸弹弹窗假装自己是黑客
  11. 如何解决jupyter notebook更换浏览器时需要输入密码的问题
  12. 三千书源——愿成为整理最全的书源合集
  13. 微信开发者工具模拟器中图片无法显示
  14. AcWing 95. 费解的开关 (yxc代码保姆级题解+注释)
  15. js 比较啷个日期的大小
  16. 字符串—解压缩(C语言)
  17. 怎么把.txt转换成html,怎么把txt转换成HTML
  18. 李子柒YouTube油管粉丝破千万,争议不断的背后是怎样的魅力
  19. 爬取集思录可转债成交额
  20. linux开放端口命令

热门文章

  1. 物理建模钢琴-Modartt Pianoteq Pro v6.7.0 WiN
  2. 电子墨水屏标签:低功耗处理器技术
  3. php文字验证码插件,php中文验证码实现方法
  4. App首次进入引导界面
  5. 遥感期刊论文速读2(2021年8月12日)
  6. paddle.paramattr转换为torch框架下算法
  7. 【Python】利用滑动窗口计算全基因组每个窗口上CNV的拷贝数和Vst
  8. DEDECMS后台文章发布出错解决方案
  9. java计算机毕业设计基于安卓Android/微信小程序的大学生签到管理系统APP
  10. [从零开始unity3D]“五子连珠”游戏实现,网格数组的创建(1)