基于HNC语境理论的文本分类

王文峰1  唐兴全2

北京大正语言知识处理研究院 北京 100081

对外经贸大学中文系 北京 100083

1 Wangwenfeng2008@hotmail.com, 2 tang_xq@hotmail.com

摘要:本文从HNC语境理论来分析现在中文信息处理的一个热门话题——中文文本分类。HNC理论认为只有深入到语境层面,理解语句及篇章,才能更好的完成文本分类的工作。本文介绍了一种新的文本语义形式化模型——语境框架。语境框架是一个三维的语义描述,他把文本内容抽象成领域(静态范畴)、情景(动态范畴)、背景(褒贬、参照等)三个框架。并在语境框架的基础上,设计实现了文本特征提取算法。

关键词:HNC 语境框架 文本分类

The Text Classifies based on the HNC theory

Wang Wenfeng1  Tang Xingquan2

1 Linguistry Management Institute&Com.Ltd, Dazheng, Beijing 100081

2 department of Chinese University of international business and economics  Beijing 100083

 1 Wangwenfeng2008@hotmail.com, 2 tang_xq@hotmail.com

Abstract:This article analyzes the present Chinese information processing from the HNC linguistic environment theory that is a hot topic of discussion - - Chinese text classification. The HNC theory thinks only when penetrated into the linguisticenvironmentstratification plane and understood the sentence as well the chapter ,which can complete the work of the text classification further. This article introduces a kind of new text semantics formalization model - - linguistic environment frame. The linguistic environment frame is a three dimensional semantic description, which abstractly offers the text content to the following three frames : the domain (static category), the scene (dynamic category), the background (appraisal, reference and so on). And according to the linguistic environment frame, the design has realized the text characteristic extraction algorithm.

Key word: HNC  Linguistic environment frame  Text classification

1.引言

当前的文本分类主要是基于机器学习的方法构建分类器,通过训练获得相对加号的分类器参数。也有的文本自动分类系统中采用了规则的方法,或者将规则与统计相结合形成混合系统。

而无论是字、词还是概念为特征项,都是把一篇文章拆解为若干次或者概念的简单叠加,没有考虑词语的顺序和次序之间的相互影响。如果在文本分类中引入一定的自然语言理解的处理,那么分类将会更加合理。我们使用概念层次网络(Hierarchical Network of Concepts,简称HNC)理论中的语境理论作了分析尝试,在语境框架的基础上,设计实现了文本特征的提取算法。算法从语义入手,实现了领域提取,以领域句类为核心的情景提取,和对象语义立场的判断。

本文首先将介绍语境框架,再详细阐述算法特征提取的设计与实现,最后给出该语境领域在实际中的应用。

2. HNC语境理论的简介

  HNC理论中的语境是对文本内容的形式化描述结构,HNC理论认为一个文本的语境(ABS)是由文章中所有的句群提供的语境单元构成的,语境单元包括三维:领域(DOM)、情景(SIT)、背景(BAC)。“领域”描述事件的类型,“情景”描述事件的作用效应链表现,而“背景”又区分为“事件背景”(BACE)和“述者背景”(BACA),“事件背景”描述事件发生的主客观条件,“述者背景”描述叙述者或论述者的特定视野。

3. 语境框架

  语境框架是特征提取算法的语义模型,是黄曾阳先生提出的文本内容形式化结构。他把信息抽象成三个侧面:1.所属的领域:政治、经济、军事等。2.所关涉的对象和内容,以及对象之间的语义关系。3.所在的背景环境:时间、空间、目的、参照等等。三个侧面构成语境三要素:领域、情景、背景。

3.1背景框架

背景框架以事件的背景类型为中心。包括:基本背景信息,以及陈述中心的时间空间信息、作者的参照点、目的,还有褒贬倾向等。基本背景信息包括文本来源、语言类型、日期等。如果是议论文,则还包括作者本人的背景情况,如年代、立场、所属国家等。

背景主要分为两部分,一部分是文章背景,另一部分是内容背景。文章背景就包含了BACA和篇章来源等信息。大部分文章中这些信息都是不全的,甚至是完全没有的。内容背景主要是各种辅块,其中非常重要的是条件辅块,包括时间辅块、空间辅块等等。背景的获得对于进一步限定分类条件非常重要。

3.2  领域

领域以事件为中心,描述事件核心所归属的范畴。HNC理论为领域分析定义了10个一级子类,还可以进行进一步细分为更多领域子类。在领域分析中,需要注意不同的语义角色对领域的决定性不同,根据DOM准则,其优先顺序为Eg>El>C>B=A。在一个语句中,一但选定具有决定意义的语义角色就不再考虑其它语义角色,并且选取上述语义角色的核心进行分析。HNC从概念上把领域分为11大类,有300多个一级分类,每个一级分类都可以扩展细分,任意两个领域之间也可以组合。下面给出部分领域的定义。其中,第一部分是领域的编号,第二部分是它的文字定义。

.a 第一类专业活动(包括政治、经济、军事、法律等8个二级子类)

.a2 经济,a21制造业,a24 金融业,a26技术经济,λ6(λ=6,9,c)

第二类专业活动(包括农业、服务业等5个二级子类)

3.3  情景框架

情景分析要首先确定分析的对象。从全篇来看,我们选取语句涉及的对象已大为减少,但情景分析不能也没有必要全部分析这些对象,因此首先要归并对象。对象之间的归并分为两种情况:1)重复出现的对象;2)非重复但有关联的对象。通过指代关系、形式结构和概念之间的关联可以发现同一、部分整体和并列等关系。通过表示关系的句类及其混合句类可以发现其它的关系。情景框架以事件的特定参与者为中心,包括各参与者以及他们之间的语义关系。比如:

上周五,美国商务部部长古铁雷斯宣布,将对来自中国的铜版纸产品征收临时反补贴税。

这个句子的基本信息就是中国企业应归美国的商务贸易纠纷。领域句类a25a(对外进出口贸易),来源于征收,因此它的情景框架是所给出的句类(即动作类别)和HNC语义符号):核心:征收(XT10*31)(va25*1Vv3ae01),征收者:美国(XA[fpj2Vjx63e22])以上就是贸易征收的情景框架。每个领域和句类结合都可以生成一个情景框架,一级情景框架的总数是300*(57+3192)=974700个(其中,一级领域为300个,句类包括57组类似于反应句的基本句类,以及它们之间相互混合构成的57*56=3192个混合句类)。每个情景框架都可以根据句类知识给出预期。

3.4  文本特征描述

语境框架是一个三维空间,是高度数字化的语义结构,因此它是文本内容的高度抽象。由于语境框架从静态范畴、特征之间的语义关系、以及特征之间的褒贬倾向等三个方面来综合描述文本的内容,因此用它作为文本特征,可以较好地反应文本的内在关系。对句群、段落、篇章分析,可以得到不同颗粒度的语境框架和不同层次的文本特征。句群语境是语境的最小单位,本文的特征提取算法建立在句群语境基础上。

4. 特征提取算法的文本示例

  算法的输入是自然语言表示的文本,输出是语境框架。算法的基本思路是:通过语义分析,把自然语言映射到语义符号上,然后分析各个语义角色之间的语义关系,和各个角色对句群的贡献,最后通过动态记忆抽取出语境框架。

4.1 语义分析

该系统采用的语义分析技术是HNC句类分析技术。句类分析可以给出句子的语义结构、各组成成分之间的语义关系。

例如: 参与这个计划的俄罗斯企业也遇到了一些严重的问题。

句类分析给出的语义结构是:Y90J=

YB(效应对象)    参与这个计划的俄罗斯企业(pea2)

Y90(效应的动作)   遇到了(v39e61)

YC(效应内容)    一些严重的问题(gr53821)

其中,Y90J是句子所属的句类;YB、Y90、YC是语义块名,分别指出了效应对象和效应的内容。

4.2 领域提取

领域提取的过程就是确定信息描述核心的过程。HNC领域的分类是以语义为准的进行的语义分类,可以直接从内容中提取具有组合性好等特点。同时也面临着新的任务是:

1.如何从一个句子中提取句子所属领域;

2.如何从多个句子的领域集合中,确定句群的领域;

3.如何识别多个领域的交叉复合。

我们定义为一个四元组:(D,S,R,G),其中,D是领域类别,S是提取位置的语义,R是提取位置的语义角色,G为D的领域级别。所有可能的领域构成一个4元组集合DCanSet,提取的结果是领域候选集DSet。

领域提取的算法为:

1.从输入的句类分析结果的所有词汇语义中,得到所有的可能的领域,形成DCanSet;

领域信息蕴含在相关词语的HNC语义符号中。

2.按照一下算法对DCanSet排序;

a) 语义角色优先性排序:Eg > El > C > B|A。

领域首先取于整句语义核心(Eg);其次取于小句的语义核心(El);再次取于与语义核心强相关的抽象概念,最后取于所有具体概念。

b)级别大小排序。比如:专业活动领域的级别大于心理活动领域。

3.按照领域的类别,对DCanset的前n项进行复合;

复合的结果是生成新的领域,或者对某个领域加权。比如:改革竞争是活动很重要的一面,因此对经济领域和改革竞争进行复合的结果是对经济加权,权值为1。

4.给出复合后的前m个领域,作为领域的候选集DSet。

4.3 情景生成

情景生成的任务是生成有预期知识的情景框架,并填充之。情景框架的BNF范式描述是:

<情景框架>::=<领域句类>#<核心情景单元>{<对象情景单元>}#

<领域句类>::=<领域><句类>

<领域>::=a0|a1|a4|……(300个高层定义以及它们的混合)

<句类>::=X|Y|T|D|R|……(57组基本句类和3192个混合句类)

<核心情景单元>::=<核心对象OB><对象情景单元个数>

<核心对象>::=<对象>

<对象情景单元个数>::=2|3|4

<对象情景单元>::=<对象单元预期知识><对象>

情景生成算法如下:

1.根据领域候选集DSet,确定领域句类;

a)当领域来自句子(或小句)的语义核心Eg(或El)时,它指示的句类是领域句类;

b)当领域来自某个对象内容时,他所在的句类就是领域句类;

C)当领域来自不同句类时,领域句类是他们所在的句类的混合,混合的方式根据领域来源的语义块关系确定。

2.根据领域句类确定核心情景单元,并生成对象情景单元的预期知识;

核心情景就是领域句类所在的句子的核心语义块。对象情景单元的预期知识包括:领域句类的句类知识,包括句类词(指决定句类的词)的预期知识。

3.根据对象单元的预期知识,填充对象;

a)根据句类预期知识,确定每个单元需要填充的类型。只含对象的单元,填充符合要求的具体概念;含内容C的语义块,进行具体概念和抽象概念提取;

b)把符合预期的对象的HNC语义符号、语义表现、语义角色等一起填充。

4.进行框架归一;把句群中不同句子中相同语义的内容填充到同一单元中。

4.4背景生成

背景信息主要蕴含在某些HNC语义符号中,因此背景生成主要是寻找特定的概念。其算法如下:

1.填充基本背景信息;

2.直接从相关的词汇中提取时间、空间、目的等概念(这里给出一些有代表性词语的语义表示):

.条件:陈述中心的时间(j1)空间(j2)信息。如:中国fpj2*101

.目的:主要蕴含在对偶性中层概念中,如下面的e61,e62分别表示不同的目的。

.支持v943e61;v902e61  反对v943e62;v902e62

3.确定参照点;根据时间、地点、语言类型等判断参照点;在某些关系概念中就直接蕴含着参照,如:我国pj2+g400e31(汉语的“我国”指示出参照点是中国)。

5. 结束语

HNC概念符号表达式是词语的一种语义表达,它能够表达出词语之间的语义相关性,因此用它作为特征能够获得较好的分类效果。本文只是在这方面作了初步探索,并选取了一种比较直接的方法将HNC符号表达式转化为特征。事实上,HNC概念符号表达式中蕴含了丰富的概念联想脉络,概念基元内部和概念基元之间的组合都包含了大量的语义信息,这对于文本分类是非常有价值的,如何利用这些信息还有待于进一步的研究。本文在语境框架基础上,运用了算法的知识设计实现了文本特征提取算法。

参考文献:

[1] 晋耀红 苗传江,一个基于语境框架的文本特征提取算法

[2] 黄曾阳,HNC(概念层次网络)理论,清华大学出版社,1998

[3] 苗传江,HNC(概念次网络)理论导论,清华大学出版社,2005

[4] 晋耀红,基于语境框架的文本相似度计算,计算机工程与应用

[5] 张运良,基于简化语境的文本分类初探

基于HNC语境理论的文本分类相关推荐

  1. 基于统计概率和机器学习的文本分类技术

    基于统计概率和机器学习的文本分类技术 -- 社区产品机器审核机制 一.现状 目前,所在公司社区类产品(论坛.博客.百科)每天都会接收到大量的垃圾.灌水信息,高峰期16小时内(晚6点以后到第二天9点前) ...

  2. 朴素贝叶斯网络matlab实现_基于朴素贝叶斯的文本分类方法实战

    基于朴素贝叶斯的文本分类方法 一.朴素贝叶斯原理的介绍 二.朴素贝叶斯分类器的代码实现 分类器有时会产生错误结果,这时可以要求分类器给出一个最优的类别猜测结果,同时会给出这个猜测的概率估计值.朴素贝叶 ...

  3. 基于统计概率和机器学习的文本分类技术 —— 社区产品机器审核机制预研报告...

    [align=center][size=x-large]基于统计概率和机器学习的文本分类技术[/size][/align] [size=large][align=center]-- 社区产品机器审核机 ...

  4. 基于朴素贝叶斯的文本分类算法

    基于朴素贝叶斯的文本分类算法 摘要:常用的文本分类方法有支持向量机.K-近邻算法和朴素贝叶斯.其中朴素贝叶斯具有容易实现,运行速度快的特点,被广泛使用.本文详细介绍了朴素贝叶斯的基本原理,讨论多项式模 ...

  5. c语言贝叶斯分类,基于朴素贝叶斯分类器的文本分类算法(C语言)

    基于朴素贝叶斯分类器的文本分类算法(C语言) 基于朴素贝叶斯分类器的文本分类算法(C语言).txt两个人吵架,先说对不起的人,并不是认输了,并不是原谅了.他只是比对方更珍惜这份感情.#include ...

  6. R语言构建文本分类模型:文本数据预处理、构建词袋模型(bag of words)、构建xgboost文本分类模型、基于自定义函数构建xgboost文本分类模型

    R语言构建文本分类模型:文本数据预处理.构建词袋模型(bag of words).构建xgboost文本分类模型.基于自定义函数构建xgboost文本分类模型 目录

  7. 基于朴素贝叶斯实现文本分类

    基于朴素贝叶斯实现文本分类 数据集介绍 数据集为网上公开的新闻数据,其中数据集包含10个类别. 模型选择 贝叶斯分类 贝叶斯公式 朴素贝叶斯 拉普拉斯平滑引入 某个属性的条件概率为0,则会导致整体概率 ...

  8. textcnn文本词向量_基于Text-CNN模型的中文文本分类实战

    1 文本分类 文本分类是自然语言处理领域最活跃的研究方向之一,目前文本分类在工业界的应用场景非常普遍,从新闻的分类.商品评论信息的情感分类到微博信息打标签辅助推荐系统,了解文本分类技术是NLP初学者比 ...

  9. 基于 LSTM-Attention 的中文新闻文本分类

    1.摘 要 经典的 LSTM 分类模型,一种是利用 LSTM 最后时刻的输出作为高一级的表示,而另一种是将所有时刻的LSTM 输出求平均作为高一级的表示.这两种表示都存在一定的缺陷,第一种缺失了前面的 ...

最新文章

  1. Asp.Net中跳转页面有那几种方法
  2. linux修改ip地址方法如何保存_修改电脑IP地址方法
  3. makefile 学习(一)
  4. 元宇宙大潮来袭?业内首个虚拟形象实时互动融合 SDK 来了!
  5. JAVASCRIPT发展历程
  6. 215. 数组中的第K个最大元素 golang
  7. 前端学习(2984):一文理解数据劫持2
  8. 云计算(cloud computing)十大问答
  9. hdu5024-Wang Xifeng's Little Plot
  10. 线上一个数组查询遇到的坑
  11. oc引导windows蓝屏_Win10开机蓝屏无法启动?不急,教你一招轻松解决,无需重装系统...
  12. 输入两个整数,求他们相除的余数
  13. 设计模式-第七篇之门面模式
  14. (Excel)常用函数公式及操作技巧之六:汇总计算与统计(一)
  15. win2008 有几个版本?区别是什么?
  16. 一、 WIN32程序
  17. 微信早安,利用uniCloud阿里云的云函数实现定时推送
  18. 【Flutter实战 BLoC模式 RxDart Provider模式】
  19. 中文字符在MQL的处理
  20. 手机图形化编程自主控制机器人完成各种任务。找东西,打靶,足球等。成本超低。人工智能开发很模式!使用老旧闲置手机再花几十块钱就能做出智能机器人!

热门文章

  1. 联想B460加装MU301
  2. [转]客户和银行员工都说通存通兑“不合算”
  3. 编译原理 第十章 代码优化
  4. python日历软件的制作
  5. Java 日历的制作 心得 写给自己
  6. Java基础05-面向对象private\this\static关键字
  7. 密码计算机手机版,手机密码软件
  8. JavaBean实现多个文件上传的两种方法
  9. 2023春实习笔试题记录
  10. 给假装是NAS的冷数据HDD机械硬盘加一个软件控制的电源开关