NLP-文本蕴含(文本匹配):概述【单塔模型、双塔模型】
一、什么是文本蕴含识别
文本间的推理关系,又称为文本蕴含关系 (TextualEntailment),作为一种基本的文本间语义联系,广泛存在于自然语言文本中。简单的来说文本蕴含关系描述的是两个文本之间的推理关系,其中一个文本作为前提(premise),另一个文本作为假设(hypothesis),如果根据前提P能够推理得出假设H,那么就说P蕴含H,记做。这跟一阶逻辑中的蕴含关系是类似的。
例子:
这个例子中前提P是“A dog jumping for a Frisbee in the snow”,意思一只狗在雪地中接飞盘玩,同时下面给出了三个假设,这三个假设中前提跟第一个是蕴含关系(entailment),因为这句话描述的是“一个动物正在寒冷室外玩塑料玩具”,这是能够从前提推理出来的;第二句化描述的是“一只猫…”,这跟前提是冲突的(contradiction);第三句话与前提既不是蕴含关系也没有冲突,我们把它定义成中立的(neutral)。
文本蕴含识别(Recognizing Textual Entailment,RTE)主要目标是对前提和假设进行判断,判断其是否具有蕴含关系。文本蕴含识别形式上是一个文本分类的问题,在上面这个例子中是一个三分类的问题,label分别为entailment,contradiction,neutral。
二、文本蕴含识别数据集
Learning to Rank: pointwise、pairwise、listwise
LTR(Learning to rank)是一种监督学习(SupervisedLearning)的排序方法,已经被广泛应用到推荐与搜索等领域。传统的排序方法通过构造相关度函数,按照相关度进行排序。然而,影响相关度的因素很多,比如tf,idf等。传统的排序方法,很难融合多种因数,比如向量空间模型以tf*idf作为权重构建相关度函数,就很难利用其他信息了,并且如果模型中参数比较多,也会使得调参非常困难,而且很可能会出现过拟合现象。LTR采用机器学习很好地解决了这一问题。机器学习方法很容易融合多种特征,而且有成熟深厚的理论基础,并有一套成熟理论解决稀疏、过拟合等问题。
参考资料:
自然语言推理-文本蕴含识别简介
FAQ检索式问答系统及文本匹配计算
文本匹配方法 paper笔记
丁香园在语义匹配任务上的探索与实践
蚂蚁金融NLP竞赛——文本语义相似度赛题总结
匹配网络(Learning to Rank、单双塔模型)
NLP-文本蕴含(文本匹配):概述【单塔模型、双塔模型】相关推荐
- 文本匹配开山之作--双塔模型及实战
作者 | 夜小白 整理 | NewBeeNLP 在前面一篇文章中,总结了Representation-Based文本匹配模型的改进方法, 基于表征(Representation)的文本匹配.信息检索. ...
- 匹配网络(Learning to Rank、单双塔模型)
参考:Learning to Rank Learning to Rank: pointwise.pairwise.listwise LTR(Learning to rank)是一种监督学习(Super ...
- 【NLP】深度文本匹配综述
目 录 1.研究背景与意义 2.深度学习在自然语言处理的应用 3.深度文本匹配与传统文本匹配 4.深度文本匹配国内外研究现状 4.1基于单语义表达的文本匹配 4.2基于多语义表达的文本匹配 ...
- NLP文本分类入门学习及TextCnn实践笔记——模型训练(三)
这篇记模型训练. 距离第一篇已过去一个月.从学习到正式启动模型训练,花了两周.模型训练召回率和准确率达到上线标准又花了两三周. 训练及测试样本评估的精确率都是97%.98%,结果一到线上实验,结果惨不 ...
- 多标签文本分类研究进展概述
多标签文本分类研究进展概述 1.多标签文本分类的研究还有很大的提升空间. 2.多标签文本分类的基本流程,包括数据集获取.文本预处理.模型训练和预测结果: 3.多标签文本分类的方法:传统机器学习的方法和 ...
- 搜索:多模态搜索算法实践【工业界:将其他模态(视频、音频)的信息降维到文本模态】【学术界:将所有模型信息映射到公共向量空间】
什么是多模态检索? 现实生活中常有图搜图,文本搜文本,视频搜视频的应用,这些都是单模态检索.多模态检索就是,不同类别之间的搜索,比如用文本搜图,用图搜文本等,这类情况称为多模态检索. 视频搜索是涉及信 ...
- 【打卡-Coggle竞赛学习2023年1月】文本相似度匹配
文章目录 ## Part4 文本相似度匹配 ### 背景介绍 ### 数据说明 ### 评估方式 ### 学习打卡 - 任务1:数据集读取 - 任务2:文本数据分析 - 任务3:文本相似度(统计特征) ...
- AllenNLP系列文章之六:Textual Entailment(自然语言推理-文本蕴含)
自然语言推理是NLP高级别的任务之一,不过自然语言推理包含的内容比较多,机器阅读,问答系统和对话等本质上都属于自然语言推理.最近在看AllenNLP包的时候,里面有个模块:文本蕴含任务(text en ...
- NLP自然语言处理——文本分类(CNN卷积神经网络)
文本分类是NLP自然语言处理中一项基本功能,它在新闻分类.主题分类.问答匹配.意图识别.情感分类.推断等领域都有涉及. 学习应用文本分类任务的难点有被识别语言的复杂性和评测函数的设计等,本篇将介绍一个 ...
最新文章
- SAP RETAIL 寄售模式公司间STO收发货过账后的观察
- sap屏幕元素与事件
- vertx.FileResolver文件解析
- MappedByteBuffer的使用
- P3651-展翅翱翔之时【贪心,环套树】
- Power BI连接MySQL 提示错误......未能加载文件或程序集......或它的某一个依赖项
- Java二十三种设计模式 之代理(proxy)
- 【Java从0到架构师】交错的日志系统、SpringBoot 集成日志框架
- mybatis 业务逻辑
- JS事件流(事件冒泡 事件委托)
- 迭代器模式的原理和实现
- Error:Execution failed for task ':app:lint'.
- [LeetCode] Best Time to Buy and Sell Stock
- Element UI 极简教程(1)
- 中职计算机ps教案ppt,photoshop课件ppt
- ios java模拟器 2017_Visual Studio 2017(Xamarin)未显示iPhone模拟器列表
- 美国大学计算机软件专业排名,美国大学计算机专业排名
- JS十六进制转浮点、字符串转为ArrayBuffer、ArrayBuffer转16进制字符串、16进制转10进制、crc校验位、十六进制转中文字符串(小程序、浏览器)、十六进制字符串转ascall字串
- Safe Browsing API
- 全球及中国医疗众筹行业发展战略与投资规划分析报告2022-2028年