【论文翻译】文本语义提取

摘要

文本文档是存储信息的手段之一。这些文档可以在个人桌面计算机、内部网和Web上找到。因此，有价值的知识以非结构化的形式嵌入。拥有一个可以从文本中提取信息的自动化系统是非常可取的。然而，开发这样一个自动化系统的主要挑战是自然语言并不是没有歧义和不确定性问题。因此，语义抽取仍然是该领域研究人员面临的一个挑战。本文提出了一种新的语义提取框架，利用可能性理论、模糊集、主题知识和前句知识作为解决歧义和不确定性问题的关键。

关键词：语义抽取，信息抽取，可能性理论

1. 介绍

现在，Web被认为是世界上最大的知识宝库，它正在被世界各地数以百万计的人不断地扩充和维护。然而，它不是以一个数据库的形式，其中的记录和字段易于计算机操作和理解，而是以自然语言文本的形式，旨在供人类阅读。尽管语义网的前景广阔，但英语和其他自然语言文本的使用将继续成为交流、知识积累、网络信息发布、电子邮件、报告、备忘录、博客等的主要媒介。人们希望快速、低成本地从文本文档中提取有用的信息。文本挖掘是一个新兴的研究领域，主要是利用自动化方法来挖掘文本文档中的大量可用知识。文本挖掘，有时也称为文本数据挖掘，一般是指从文本[2]中获取高质量信息的过程。

典型的文本挖掘任务包括文本分类、文本聚类、概念/实体和事实提取，以及生成粒度分类法、情感分析、文档摘要和实体关系建模[3]。在处理自然语言文本时，最关键的问题是歧义和不确定性问题。自动信息提取(IE)系统应该能够从文本中提取正确的语义。因此，应该解决模糊和不确定性问题。在这一研究工作中，我们提出了一个新的语义抽取框架。该框架是基于主体知识和相关的前句知识。本文的组织结构如下。第2.0节将讨论信息提取;第3.0节将介绍一个拟议的框架。第4.0节给出了实现和结果分析。第5.0节对论文进行了总结。

在过去的几年里，IT从业者已经同意存在一个连续的数据、信息和知识。数据大多是结构化的、事实的和数字的。数据由事实、图像或声音组成。当数据与解释和意义相结合时，信息就出现了。知识是支持决策过程所必需的推理抽象。知识可以像知道美国的总统一样简单，也可以像将过程变量与成品尺寸联系起来的数学公式一样复杂。要区分信息和知识并不总是那么简单。[1]将知识定义为“框架经验、价值观和上下文信息的流动混合，但在人们使用它之前，它不是知识”。而[2]使用的知识定义来源于[3]，即知识的主要元素是概念和概念之间的关系。基本上，[4]将概念定义为“在事件或物体中感知到的规律，或通过标签指定的事件或物体的记录”。知识以本能、思想、规则和程序等形式存在，指导行动和决策。大多数研究人员都认为知识是人类的创造。因此，我们可以通过连接新的概念/实体来构建新的知识，我们已经拥有的知识[5]。

2. 相关领域

在讨论语义抽取时，我们应该强调最相关的应用是IE。根据[4]的说法，IE所做的任务比理解全文更有限。[4]指出，在全文理解中，将文本中的所有信息都呈现出来，而在IE中，输出的语义范围、关系将被呈现出来。传统IE中，自然语言文本被映射为预定义的、结构化的表示，或模板，当它们被填充时，表示从原始文本中提取的关键信息[5,6]。

在IE中，有两个层次的提取；实体提取和事实提取。从文本中提取实体/概念需要人阅读它们。事实抽取是将事实从实体中展开的过程。这是非常耗时的。这可能成为一个具有挑战性的任务，如果一个人没有足够的背景相关的文本。拥有一个可以从文本中提取所需信息的自动化系统正成为一种迫切的需求。然而，这个愿望是不容易实现的。自然语言文本也存在歧义问题。它不仅是许多词可以指一个意思，一个词可以有多个意思，而且一个句子的结构可以解释成多个意思。

另一方面，Singh[7]和Hale[8]处理的信息提取是基于对编写文档所使用的自然语言的结构和意义的理解，信息提取的目标是从文本中积累语义信息。从技术上讲，从文本中提取信息需要词汇知识、描述待分析文本具体语法的语法以及语义[9]。

今天，大多数涉及语义分析的IE系统利用了整个领域和任务知识图谱中最简单的部分，也就是说，命名实体。然而，越来越多的IE应用领域，如功能基因组学，需要更多的文本理解。例如，在生物医学领域，实体是基因、蛋白质和药物的名称。NER通常是文本挖掘系统的起点，这意味着当识别出正确的实体时，就可以开始搜索实体之间的模式和关系。[10]还声称NER的一个主要问题是含糊的蛋白质名称;一个蛋白质名称可以指多种基因产物。

虽然[11]已经努力使用语义标记语料库和UMLS来解决歧义术语，但歧义仍然是IE中[10]的主要“世界问题”。事实上[11]的研究只关注生物医学术语。识别和分类文本中的命名实体需要领域实体的知识。列表实体用于标记文本实体，具有相关的语义信息;但是精确的字符串对于精确的实体标识[8]来说往往不够可靠。

最近的信息提取应用包括公寓租赁广告[12]、招聘公告[13]、地理网络文档[14]、医学摘要[10]。[15]指出，许多已发表的IE报告的封闭实验;系统是建立和评估的基础上仔细注释的训练和测试语料库。尽管如上所述IE已经为各种应用程序实现了，但到目前为止，自动化IE还没有涉及语义提取。

3.框架提出

我们提出的框架解决了在两个提取层次上的IE语义提取中的歧义和不确定性问题。第一个是在实体提取级别，第二个是在事实提取级别，如图3.1所示。从文本中提取实体和事实的整个过程可以浓缩为3个步骤，如图3.1所示。

3.1. 步骤1

将输入的文本分割成句子。每个句子都会经过句法处理以识别其词性。属于动词或名词词性范畴的词被定义为一个实体。让我们以下列句子为例:

通过句法处理，该系统将能够确定pen这个词属于一个名词类别的词性。语法处理程序还可以确定“runs”是一个动词。然而，当系统需要提取单词的语义时，系统会面临歧义和不确定性问题。例如，一个单词“pen”可以被理解为一个书写工具，或者一个围场，可以让婴儿在里面玩耍。而“runs”这个词可以被解释为一种控制的活动或一种身体动作。在信息抽取中，要正确理解文本的语义。

为了解决这一问题，我们在语义处理过程中应用了主题上下文知识。图3.2说明了这个过程。

如前所述，句子(解析树)的结构是通过解析/语法过程获得的。利用可能性理论，为每个词的词义赋予可能性值。该值由主题上下文知识决定。让我们把pen看作一个词(w)及其含义；一种书写工具(m1)和外壳(m2)。w= m1或w= m2的可能性(ρ)由主题上下文知识(SK)决定，可以表述为

其中m1,…,mn，表示单词w的可能意义，n是意义的有限个数。

w的可能含义可以用ρ1， ρ2，…，ρn表示。ρ1， ρ2…，ρn的值是根据表1所示的SK来决定的。

在表1中，pen这个词的上下文是“baby”。在这项工作中，模糊算子max被用来选择最可能的含义，如公式3：

因此，通过应用等式（3），语法处理器能够决定“pen”这个词最有可能的含义，这是一个让婴儿在里面玩耍的圈地。因此，如果主题知识是“写作”，表1中的可能性值会不同。一旦出现歧义和不确定性问题，正确的语义就被附加到解析树上。带注释的解析树将用于步骤2中的流程。

3.2. 步骤2

在步骤2中，使用注释解析树来确定句子的语义。让我们考虑一下“我把婴儿放在围栏里了”这句话。虽然第1步解决了单词pen的歧义问题，但是在解析过程中，语法处理器还会生成多个解析树。这是因为语法本身的歧义。这个句子有两种解析方式；第一个解析树通过1中的生成语法规则进行解析，第二个解析树通过2中的生成语法规则进行解析，如下所示。

当句子可以用两种方式解析时，句子就有两种可能的意思。第一个解析可以理解为“那个人把位于某个地方的婴儿放进了围栏”，第二个解析可以理解为“婴儿已经在围栏里了，那个人把他/她放在了某个地方”。为了从句子中提取语义，处理器应该能够确定最可能的含义。

为了解决这个问题，处理器参考前面的相关句子，并使用它的语义来确定当前句子的最可能的含义。例如，“I put the baby in the pen”这句话的前一句是“A baby is left alone on the floor”。通过使用最相关的前一句话的知识，一个可能的值(σ)附加到派生的产生规则。因此语法产生规则可以表示为:，其中σ是每个语法规则中的一个似然函数，而σ∈[0,1]表示解析过程中用β替代α的似然性。 $V_{T}$ 中的符号串S被称为语言L(G)，当且仅当s→S，即S是从s派生出来的。当 $T_{r}$ 是生成S的解析树时，Tr的似是性为

在s→α1,α1→α2,…，αm→S为构造 $T_{r}$ 的导链，μ(αi→αi+1)为非零的 $\sigma _{i+1}$ 。限定模糊集 $F_{s}$ 定义为

它的隶属函数是

其中→Τr是链 s→α1，α1→α2，…，αm→S，由此构造Tr。当一个句子有歧义时，使用模糊最大算子来选择最可能的解析树，如式(6)所示。

从语义上讲，“I put the baby in the pen”这句话的意思可以理解为“the person put the baby in a pen”。

3.3. 步骤3

为了进一步计算，谓词演算用于语义表示。例如，一个句子“I put the baby in the pen”的语义用put (baby, pen)的形式表示。

4. 实现问题

该框架已用C语言实现。动态规划技术用于创建语法处理的解析器，其中应用了[16]。语义连接采用lambda约简技术[17]进行。本文共使用了70条模糊语法规则。该框架使用了15个数据集。每个数据集由歧义和明确的句子组成。每个句子可能包含歧义和不歧义的词。数据集的长度在5到7个句子之间。这个过程是在句子层面上进行的。将所得结果与人工判断进行了比较，结果表明所提出的框架是成功的。

5. 总结

本文提出了一种新的文本语义提取框架。该框架的新颖之处在于在信息抽取中使用了主题知识和最相关的前一句话来解决歧义问题。本文利用可能性理论和模糊集，基于主题和前句的知识，从文本中提取出最可能的语义。实验结果表明该框架是成功的。