摘要

文本文档是存储信息的手段之一。这些文档可以在个人桌面计算机、内部网和Web上找到。因此,有价值的知识以非结构化的形式嵌入。拥有一个可以从文本中提取信息的自动化系统是非常可取的。然而,开发这样一个自动化系统的主要挑战是自然语言并不是没有歧义和不确定性问题。因此,语义抽取仍然是该领域研究人员面临的一个挑战。本文提出了一种新的语义提取框架,利用可能性理论、模糊集、主题知识和前句知识作为解决歧义和不确定性问题的关键。

关键词:语义抽取,信息抽取,可能性理论

1. 介绍

现在,Web被认为是世界上最大的知识宝库,它正在被世界各地数以百万计的人不断地扩充和维护。然而,它不是以一个数据库的形式,其中的记录和字段易于计算机操作和理解,而是以自然语言文本的形式,旨在供人类阅读。尽管语义网的前景广阔,但英语和其他自然语言文本的使用将继续成为交流、知识积累、网络信息发布、电子邮件、报告、备忘录、博客等的主要媒介。人们希望快速、低成本地从文本文档中提取有用的信息。文本挖掘是一个新兴的研究领域,主要是利用自动化方法来挖掘文本文档中的大量可用知识。文本挖掘,有时也称为文本数据挖掘,一般是指从文本[2]中获取高质量信息的过程。

典型的文本挖掘任务包括文本分类、文本聚类、概念/实体和事实提取,以及生成粒度分类法、情感分析、文档摘要和实体关系建模[3]。在处理自然语言文本时,最关键的问题是歧义和不确定性问题。自动信息提取(IE)系统应该能够从文本中提取正确的语义。因此,应该解决模糊和不确定性问题。在这一研究工作中,我们提出了一个新的语义抽取框架。该框架是基于主体知识和相关的前句知识。本文的组织结构如下。第2.0节将讨论信息提取;第3.0节将介绍一个拟议的框架。第4.0节给出了实现和结果分析。第5.0节对论文进行了总结。

在过去的几年里,IT从业者已经同意存在一个连续的数据、信息和知识。数据大多是结构化的、事实的和数字的。数据由事实、图像或声音组成。当数据与解释和意义相结合时,信息就出现了。知识是支持决策过程所必需的推理抽象。知识可以像知道美国的总统一样简单,也可以像将过程变量与成品尺寸联系起来的数学公式一样复杂。要区分信息和知识并不总是那么简单。[1]将知识定义为“框架经验、价值观和上下文信息的流动混合,但在人们使用它之前,它不是知识”。而[2]使用的知识定义来源于[3],即知识的主要元素是概念和概念之间的关系。基本上,[4]将概念定义为“在事件或物体中感知到的规律,或通过标签指定的事件或物体的记录”。知识以本能、思想、规则和程序等形式存在,指导行动和决策。大多数研究人员都认为知识是人类的创造。因此,我们可以通过连接新的概念/实体来构建新的知识,我们已经拥有的知识[5]。

2. 相关领域

在讨论语义抽取时,我们应该强调最相关的应用是IE。根据[4]的说法,IE所做的任务比理解全文更有限。[4]指出,在全文理解中,将文本中的所有信息都呈现出来,而在IE中,输出的语义范围、关系将被呈现出来。传统IE中,自然语言文本被映射为预定义的、结构化的表示,或模板,当它们被填充时,表示从原始文本中提取的关键信息[5,6]。

在IE中,有两个层次的提取;实体提取事实提取。从文本中提取实体/概念需要人阅读它们。事实抽取是将事实从实体中展开的过程。这是非常耗时的。这可能成为一个具有挑战性的任务,如果一个人没有足够的背景相关的文本。拥有一个可以从文本中提取所需信息的自动化系统正成为一种迫切的需求。然而,这个愿望是不容易实现的。自然语言文本也存在歧义问题。它不仅是许多词可以指一个意思,一个词可以有多个意思,而且一个句子的结构可以解释成多个意思。

另一方面,Singh[7]和Hale[8]处理的信息提取是基于对编写文档所使用的自然语言的结构和意义的理解,信息提取的目标是从文本中积累语义信息。从技术上讲,从文本中提取信息需要词汇知识、描述待分析文本具体语法的语法以及语义[9]。

今天,大多数涉及语义分析的IE系统利用了整个领域和任务知识图谱中最简单的部分,也就是说,命名实体。然而,越来越多的IE应用领域,如功能基因组学,需要更多的文本理解。例如,在生物医学领域,实体是基因、蛋白质和药物的名称。NER通常是文本挖掘系统的起点,这意味着当识别出正确的实体时,就可以开始搜索实体之间的模式和关系。[10]还声称NER的一个主要问题是含糊的蛋白质名称;一个蛋白质名称可以指多种基因产物。

虽然[11]已经努力使用语义标记语料库和UMLS来解决歧义术语,但歧义仍然是IE中[10]的主要“世界问题”。事实上[11]的研究只关注生物医学术语。识别和分类文本中的命名实体需要领域实体的知识。列表实体用于标记文本实体,具有相关的语义信息;但是精确的字符串对于精确的实体标识[8]来说往往不够可靠。

最近的信息提取应用包括公寓租赁广告[12]、招聘公告[13]、地理网络文档[14]、医学摘要[10]。[15]指出,许多已发表的IE报告的封闭实验;系统是建立和评估的基础上仔细注释的训练和测试语料库。尽管如上所述IE已经为各种应用程序实现了,但到目前为止,自动化IE还没有涉及语义提取。

3.框架提出

我们提出的框架解决了在两个提取层次上的IE语义提取中的歧义和不确定性问题。第一个是在实体提取级别,第二个是在事实提取级别,如图3.1所示。从文本中提取实体和事实的整个过程可以浓缩为3个步骤,如图3.1所示。

3.1. 步骤1

将输入的文本分割成句子。每个句子都会经过句法处理以识别其词性。属于动词或名词词性范畴的词被定义为一个实体。让我们以下列句子为例:

通过句法处理,该系统将能够确定pen这个词属于一个名词类别的词性。语法处理程序还可以确定“runs”是一个动词。然而,当系统需要提取单词的语义时,系统会面临歧义和不确定性问题。例如,一个单词“pen”可以被理解为一个书写工具,或者一个围场,可以让婴儿在里面玩耍。而“runs”这个词可以被解释为一种控制的活动或一种身体动作。在信息抽取中,要正确理解文本的语义

为了解决这一问题,我们在语义处理过程中应用了主题上下文知识。图3.2说明了这个过程。

如前所述,句子(解析树)的结构是通过解析/语法过程获得的。利用可能性理论,为每个词的词义赋予可能性值。该值由主题上下文知识决定。让我们把pen看作一个词(w)及其含义;一种书写工具(m1)和外壳(m2)。w= m1w= m2的可能性(ρ)由主题上下文知识(SK)决定,可以表述为

其中m1,…,mn,表示单词w的可能意义,n是意义的有限个数。

w的可能含义可以用ρ1, ρ2,…,ρn表示。ρ1, ρ2…,ρn的值是根据表1所示的SK来决定的。

在表1中,pen这个词的上下文是“baby”。在这项工作中,模糊算子max被用来选择最可能的含义,如公式3:

因此,通过应用等式(3),语法处理器能够决定“pen”这个词最有可能的含义,这是一个让婴儿在里面玩耍的圈地。因此,如果主题知识是“写作”,表1中的可能性值会不同。一旦出现歧义和不确定性问题,正确的语义就被附加到解析树上。带注释的解析树将用于步骤2中的流程。

3.2. 步骤2

在步骤2中,使用注释解析树来确定句子的语义。让我们考虑一下“我把婴儿放在围栏里了”这句话。虽然第1步解决了单词pen的歧义问题,但是在解析过程中,语法处理器还会生成多个解析树。这是因为语法本身的歧义。这个句子有两种解析方式;第一个解析树通过1中的生成语法规则进行解析,第二个解析树通过2中的生成语法规则进行解析,如下所示。

当句子可以用两种方式解析时,句子就有两种可能的意思。第一个解析可以理解为“那个人把位于某个地方的婴儿放进了围栏”,第二个解析可以理解为“婴儿已经在围栏里了,那个人把他/她放在了某个地方”。为了从句子中提取语义,处理器应该能够确定最可能的含义。

为了解决这个问题,处理器参考前面的相关句子,并使用它的语义来确定当前句子的最可能的含义。例如,“I put the baby in the pen”这句话的前一句是“A baby is left alone on the floor”。通过使用最相关的前一句话的知识,一个可能的值(σ)附加到派生的产生规则。因此语法产生规则可以表示为:,其中σ是每个语法规则中的一个似然函数,而σ∈[0,1]表示解析过程中用β替代α的似然性。中的符号串S被称为语言L(G),当且仅当s→S,即S是从s派生出来的。当是生成S的解析树时,Tr的似是性为

s→α1,α1→α2,…,αm→S为构造的导链,μ(αi→αi+1)为非零的。限定模糊集定义为

它的隶属函数是

其中→Τr是链 s→α1,α1→α2,…,αm→S,由此构造Tr。当一个句子有歧义时,使用模糊最大算子来选择最可能的解析树,如式(6)所示。

从语义上讲,“I put the baby in the pen”这句话的意思可以理解为“the person put the baby in a pen”。

3.3.  步骤3

为了进一步计算,谓词演算用于语义表示。例如,一个句子“I put the baby in the pen”的语义用put (baby, pen)的形式表示。

4. 实现问题

该框架已用C语言实现。动态规划技术用于创建语法处理的解析器,其中应用了[16]。语义连接采用lambda约简技术[17]进行。本文共使用了70条模糊语法规则。该框架使用了15个数据集。每个数据集由歧义和明确的句子组成。每个句子可能包含歧义和不歧义的词。数据集的长度在5到7个句子之间。这个过程是在句子层面上进行的。将所得结果与人工判断进行了比较,结果表明所提出的框架是成功的。

5. 总结

本文提出了一种新的文本语义提取框架。该框架的新颖之处在于在信息抽取中使用了主题知识和最相关的前一句话来解决歧义问题。本文利用可能性理论和模糊集,基于主题和前句的知识,从文本中提取出最可能的语义。实验结果表明该框架是成功的。

【论文翻译】文本语义提取相关推荐

  1. 目标检测经典论文——R-CNN论文翻译(纯中文版):用于精确物体定位和语义分割的丰富特征层次结构(技术报告(第5版))

    目标检测经典论文翻译汇总:[翻译汇总] 翻译pdf文件下载:[下载地址] 此版为纯中文版,中英文对照版请稳步:[R-CNN中英文对照版] 用于精确物体定位和语义分割的丰富特征层次结构 技术报告(第5版 ...

  2. 论文翻译:自然场景文本检测与识别综述

    论文翻译:自然场景文本检测与识别综述 引言 介绍 文章回顾 文本检测 文本识别 实验结果 总结和未来工作展望 引言 自然图片的检测和识别是计算机视觉领域的两个主要的问题,在运动视频分析,自动驾驶,工业 ...

  3. MultiNet:自主驾驶中的实时联合语义推理 论文翻译

    MultiNet论文相关 论文下载地址:原文地址.免翻墙地址 论文Github地址:KittiSeg 论文翻译参考:csdn MultiNet: Real-time Joint Semantic Re ...

  4. 【深度学习论文翻译】应用于语义分割问题的深度学习技术综述01

    目录 一.前言 二.摘要 三.引言 四.术语及背景概念 1. 常见的深度网络架构 2. 迁移学习 3. 数据预处理与数据增强 五. 数据集及竞赛 1.2维数据集 2.2.5维数据集 3.3维数据集 一 ...

  5. CVPR 2022 | 腾讯优图实验室30篇论文入选,含场景文本语义识别、3D人脸重建、目标检测、视频场景分割和视频插帧等领域...

    关注公众号,发现CV技术之美 本文转载自腾讯优图 近日,CVPR 2022官方公布了接收论文列表(CVPR 2022 接收论文公布! 总计2067篇!),来自腾讯优图实验室共计30篇论文被CVPR收录 ...

  6. 论文翻译:基于端到端的可训练神经网络基于图像的序列识别及其在场景文本识别中的应用

    An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to S ...

  7. #今日论文推荐#ACL 2022 | 引入角度margin构建对比学习目标,增强文本语义判别能力

    #今日论文推荐#ACL 2022 | 引入角度margin构建对比学习目标,增强文本语义判别能力 聚焦的问题:近年来基于对比学习的句子表示学习研究取得了较大的进展,但是大多数方法都只关注如何挑选对比学 ...

  8. 文本摘要提取_了解自动文本摘要-1:提取方法

    文本摘要提取 Text summarization is commonly used by several websites and applications to create news feed ...

  9. 【R-CNN论文翻译】目标检测经典论文R-CNN最新版本(v5版)全面中文翻译

    R-CNN目标检测的奠基性文章,学习目标检测必看的经典论文之一,后续有Fast R-CNN,Faster R-CNN一系列论文. 目前网上能找到的论文翻译版本要么不全,要么不是最新版本的(论文从201 ...

最新文章

  1. J - Invitation Cards POJ - 1511
  2. Google PageRank的计算源代码
  3. 今日头条极速版怎样签到_今日头条投放广告的费用多少钱?今日头条广告投放完整流程是怎样?...
  4. [LeetCode] Number of 1 Bits Reverse Integer - 整数问题系列
  5. oracle修改数据库国际字符集,Oracle修改数据库字符集
  6. matlab漂亮图表,漂亮,美观的图表之Matlab强势回归~~~~走你8
  7. mysql定时sql脚本_定时执行的SQL脚本
  8. kali2020识别不到网卡_WIN10环境下台式机找不到RealTek HD管理器解决耳塞式耳机外放问题...
  9. LoadRunner常用函数(转)
  10. __builtin_apply/__builtin_apply_args
  11. MyBatis模糊查询like的三种方式
  12. [转]vue解决刷新页面vuex数据、params参数消失的问题
  13. 主流代码扫描静态分析工具
  14. 一阶滞后环节matlab,一个一阶惯性带有滞后环节的PID仿真程序
  15. hg8546m虚拟服务器,华为HG8546路由及WIFI配置说明
  16. 小米扫地机器人原地不动_扫地机器人在原地打转是什么原因?小编来告诉你!...
  17. 【已解决】python 使用xlrd,xlwt 修改execl单元格的背景色
  18. python的界面文字翻译_教你用Python实现微信翻译机器人
  19. Java HashSet和Java HashMap
  20. Intel(R)Dual Band Wireless-AC 3165网卡驱动程序出现问题,WiFi,热点和以太网无法连接

热门文章

  1. 在windows上通过vnc实现远程虚拟界面控制jenson tx2
  2. Jetson TX2 挂载SATA SSD 并设置为启动盘
  3. Centos7本地yum源配置安装
  4. EPB电子驻车制动系统Simulink模型(参考VDA305_100标准进行模型搭建)
  5. 今日芯声 | 美团王兴回应不支持支付宝:淘宝为什么不支持微信支付?
  6. 宾得常用镜头群[转自东河寒梅]
  7. caffe的concat层
  8. 人大金仓适配mysql和oracle函数适配
  9. 求无向图的连通分量或有向图的强连通分量—tarjan()ccf高速公路
  10. 工程伦理--13.4 临平净水厂化解“邻避效应”的对策